E-post/MSN/Jabber: stefan@gorling.se
Mobil: 070-815 38 26
Motståndskraft i komplexa system
Blogg | Uppdaterad: 2012-12-04
När jag lyssnar ikapp djupa högar av överblivna podcasts snubblar jag över Richard Cooks presentation från Velocity, “How Complex Systems Fail”. Jag har tidigare läst något av honom med samma titel men inte riktigt förstått storheten. Men nu ser jag varför han är populär.
Cooks gör en i mina ögon mycket intressant distinktion mellan systemet som vi föreställer oss det (the system as imagined) samt systemet som vi hittar det (the system as found).
I teorin, och när vi diskuterar systemet består det av en svart låda, eller ett rack med datorer, eller ett arkitekturdiagram med olika moduler. Strukturerat, idealiserat, statiskt och konkret.
I verkligheten, om du är en av de få som arbetar med operations, eller på annat sätt har närkontakt med systemet, är det levande, flödande. Vi underhåller det ständigt, vi undviker kollapser, ändrar inställningar. Saker fungerar inte som det ar tänkt, system används till saker de inte var tänkta till och förändringen är kontinuerlig. Det är ett stokastiskt beteende. Det är ett samspel mellan systemet och dess individer som jag i det närmaste skulle känneteckna som autopoesiskt.
Hur ser man till att ett system som konstrueras som ett statiskt, strukturerat, idealiserat flödesschema blir motståndskraftigt i den stokastiska, föränderliga verkligheten?
Cooks ståndpunkt är tydlig, den svarta lådan måste öppnas, systemet kan inte abstraheras i flera nivåer utan måste göras tillgängligt för de som opererar det. Den improvisation och det underhåll som görs under systemets livstid och därmed leder till att en stor mängd katastrofer undviks kräver en förståelse för det system som hanteras.
System måste byggas för att kunna underhållas och förändras varje dag, nycklarna måste ges till de som opererar systemen, inte behållas av de som byggde dem, resurser måste avdelas för att sätta motståndskraften först, under hela systemets livstid.
Ta en titt på presentationen här, eller lyssna på den här.
Jag är inte övertygad om att lösningen Cooks förespråkar är den bästa, men distinktionen mellan systemet som vi föreställer oss det och systemet som vi finner det, är viktig, och ett verktyg jag tar med mig.
Två tips kring vidare läsning:
- En liten sammanfattning av 18 insiktsfulla punkter kring motståndskraft i komplexa system. Det intressanta som lyfts fram är just hur det är fel att tänka i komponenters fel eller i “root cause”, eftersom de komplexa systemen redan från början är så motståndskraftiga att flera komponenter måste slås ut för att fel ska uppstå.
- En forskningsrapport i Resillience Engineering vid Lunds Universitet, som verkar finansierad av MSB ger gen god bakgrund i ämnet och är högst läsvärd för den som är intresserad av en sammanfattning av fältet.
Här växer även tanken om systemperspektivets vikt och emergens som ett viktigt koncept – systemen byggs inte från grunden, de ändras med små, små förändringar, som tillsammans slutligen leder fram till ett stort system. Dessa lokala, infinitesmala förändringar kan genom icke-linjära beteenden knuffa systemet i en oväntad riktning.
“With it, they abandon Newtonian ideas about the symmetry between cause and effect, instead trying to understand how failure emerges from the normal behaviors of a complex, non-linear system. ”
“Consequently, its functioning is is much less binary, and potentially much more resilient. Such resilience means that failure is not really, or can’t even really be, the result of individual or compound component breakage. Instead, it is related to the ability of the system to adapt to, and absorb variations, changes, disturbances, disruptions and surprises”
Det skrivs även om Latent errors:
“Reason (1990) uses the term resident pathogen, or latent failure, to refer to errors or failures in a system that produce a negative effect
but whose consequences are not revealed or activated until some other enabling condition is met.”
“The idea of latent failures is an evolution and combination of ideas from preceding theories and models on accident causation, particularly the sequence-of-events model and man-made disasters theory. According to the latent failure model, which first appeared in developed form in Reason (1990), disasters are characterized by a concatenation of several small failures and contributing events—rather than a single large failure (e.g., Pew et al., 1981; Reason, 1990). Multiple contributors are all necessary but individually insufficient for the disaster to occur”
Och om Normal Accident Theory:
“The results of combined operational and engineering measures make these systems relatively safe from single point failures; that is, they are protected against the failure of a single component or procedure directly leading to a bad outcome. But the paradox, says Perrow (1984), is that such barriers and redundancy can actually add complexity and increase opacity so that, when even small things start going wrong, it becomes exceptionally difficult to get off an accelerating pathway to system breakdown”
“Perrow (1984) promoted the idea of system accidents. Rather than being the result of a few or a number of component failures, accidents involve the unanticipated interaction of a multitude of events in a complex system—events and interactions whose combinatorial explosion can quickly outwit people’s best efforts at predicting and mitigating disaster. The scale and coupling of these systems creates a different pattern for disaster where incidents develop or evolve through a conjunction of several small failures. Yet to Normal Accidents Theory, analytically speaking, such accidents need not be surprising at all (not even in a fundamental sense). The central thesis of what has become known as normal accident theory (Perrow, 1984) is that accidents are the structural and virtually inevitable product of systems that are both interactively complex and tightly coupled.”
“Accident models based on control theory explicitly look at accidents as emerging from interactions among system components. They usually do not identify single causal factors, but rather look at what may have gone wrong with the system’s operation or organization of the hazardous technology that allowed an accident to take place. Safety, or risk management, is viewed as a control problem (Rasmussen, 1997), and accidents happen when component failures, external disruptions or interactions between layers and components are not adequately handled; when safety constraints that should have applied to the design and operation of the technology have loosened, or become badly monitored, managed, controlled. Control theory tries to capture these imperfect processes, which involve that include people, societal and organizational structures, engineering activities, and physical parts. It sees the complex interactions between those—as did man-made disaster theory—as eventually resulting in an accident (Leveson, 2002).”
En mycket läsvärd text med många bra referenser.