Intuition, Statistik und Beweiswürdigung


Angenommen, am Tatort eines Verbrechens wurde ein Haar gefunden, das vom Haar des Abgeklagten nicht unterschieden werden kann, und der forensische Gutachter äussert sich wie folgt: Wenn der Angeklagte unschuldig wäre, betrüge die Wahrscheinlichkeit, dass die Haarproben nicht unterschieden werden können, nur 2%. Dürfen Sie davon ausgehen, dass der Angeklagte mit einer Wahrscheinlichkeit von 98% der Spurengeber ist? Die Antwort ist, einmal mehr, «es kommt darauf an». In diesem Fall kommt es darauf an, wie viele Verdächtige als Spurengeber in Frage kommen. Der Aufsatz erklärt in verständlicher Sprache, warum dies so ist und wie sich häufige Denkfehler bei der Beweiswürdigung vermeiden lassen.

I. Ein Beispiel zum Einstieg ^

[Rz 1] Das folgende Beispiel aus der psychologischen Literatur veranschaulicht die Probleme, die die meisten Menschen mit statistischem Denken haben. Das Problem ist in der sozialpsychologischen Literatur als «Taxi-Problem» bekannt, und es wurde in Dutzenden von Studien erforscht. Interessanterweise, für uns Juristen, handelt es sich um ein Problem der Beweiswürdigung – abstrahiert und vereinfacht, sicherlich, aber nicht grundsätzlich verschieden von Problemen der Beweiswürdigung, wie sie sich täglich vor Gerichten in der Schweiz stellen.
    Zwei Taxigesellschaften sind in einer Stadt tätig. Die Taxis der Gesellschaft A sind grün, die der Gesellschaft B blau. Die Gesellschaft A stellt 15% der Taxis, die Gesellschaft B die verbleibenden 85%. Eines Nachts kommt es zu einem Unfall mit Fahrerflucht. Das fliehende Auto war ein Taxi. Ein Zeuge sagt aus, es habe sich um ein grünes Taxi gehandelt.

    Das Gericht lässt den Zeugen auf seine Fähigkeit untersuchen, grüne und blaue Taxis unter nächtlichen Sichtbedingungen zu unterscheiden. Das Untersuchungsergebnis ist: In 80% der Fälle identifiziert der Zeuge die Farbe zutreffend, in 20% der Fälle irrt er sich.

    Wie hoch ist die Wahrscheinlichkeit, dass es sich beim fliehenden Taxi um ein Taxi der Gesellschaft A gehandelt hat?
[Rz 2] Wenn Sie spontan mit 80% geantwortet haben – oder zumindest gedacht haben, eigentlich müsste es doch 80% sein, aber wenn die Antwort so einfach wäre, würde warscheinlich kein Aufsatz darüber geschrieben – befinden sie sich in guter Gesellschaft. Die Mehrheit der befragten Personen, darunter Ärzte, Richter und Studierende von Elite-Universitäten, antwortet, wenn sie zum Taxi-Problem oder einem äquivalenten Probem befragt werden, mit 80%.1

A. Die Lösung, einleuchtend erklärt ^

[Rz 3] Die meisten Texte zum Taxi-Problem, und zur Statistik und Beweiswürdigung, bringen an dieser Stelle das sogenannte Bayes-Theorem,2 nach welchem sich die Lösung zum obigen Problem errechnen lässt. Und die meisten Juristen verlieren ganz plötzlich das Interesse am Thema. Tatsächlich ist es eine der Erkenntnisse der kognitiven Psychologen, dass Menschen ausserordentlich schlecht darin sind, das Bayes-Theorem in seiner abstrakten Darstellung zu begreifen, die gleiche Problematik aber, anders dargestellt, ohne grosse Mühe verstehen.3 Daher nun vorweg die einleuchtende Darstellung.

[Rz 4] Wenn man sich vorstellt, dass es in der Stadt 1´000 Taxis gibt, dann gehören 150 (grüne) Taxis der Gesellschaft A, und 850 (blaue) Taxis der Gesellschaft B. Eines dieser 1´000 Taxis hat den Unfall verursacht. Der Zeuge sagt, er habe ein grünes Taxi gesehen, und wir wissen, dass er in 80% der Fälle richtig liegt. Das bedeutet aber auch, dass er in 20% der Fälle ein blaues Taxi als grün bezeichnet. Von den 850 blauen Taxis wird er also (irrtümlicherweise) 170 als grün bezeichnen. Von den 150 grünen Taxis wird er (richtigerweise) 120 als grün bezeichnen. Um die Wahrscheinlichkeit zu errechnen, dass er tatsächlich ein grünes Taxis gesehen hat, wenn er ein Taxi als grün identifiziert, muss man die korrekten Antworten «grün» durch alle Antworten «grün» teilen, also 120 : (170+120) = 0,41. Die Wahrscheinlichkeit, dass ein grünes Taxi den Unfall verursacht hat, wenn der Zeuge meint, ein grünes Taxi gesehen zu haben, beträgt daher weniger als 50%. Diese Wahrscheinlichkeit hängt ganz entscheidend von der Verteilung der grünen und blauen Taxis in der Stadt ab; gäbe es gleich viele grüne wie blaue Taxis in der Stadt, wäre die richtige Antwort in der Tat 80%. Wir neigen aber offenbar dazu, die anfängliche Verteilung (auch a-priori, Vortest-, Ursprungs- oder Anfangswahrscheinlichkeit) zu ignorieren. Psychologen sprechen in diesem Zusammenhang von «base rate neglect».4


Häufigkeitsbaum 1
Abbildung 1: Grafische Darstellung des «Taxi-Problems»


II. Das Bayes-Theorem ^

[Rz 5] Wenn hier nun doch kurz das Bayes-Theorem eingeführt wird, dann vor allem darum, weil es eine elegante Möglichkeit ist, die mit der Beweiswürdigung zusammenhängenden Probleme zu diskutieren. Alle hier abgehandelten Probleme lassen sich aber auch anhand des in Abbildung 1 dargestellten Baumes lösen, niemand braucht also die Formel auswendig zu lernen.

[Rz 6] Wenn H eine Hypothese bezeichnet, I ein Indiz und P «Wahrscheinlichkeit» (von probability), wobei P einen Wert zwischen 0 und 1 annehmen kann, dann gilt5

Formel 1:P (H | I) =
P(H) ∙ P(I | H)
P(I)

[Rz 7] P (H | I) ist die bedingte Wahrscheinlichkeit, dass die Hypothese H bei Vorliegen des Indizes I zutrifft. Sie darf nicht verwechselt werden mit der der Wahrscheinlichkeit P(I | H), dass das Indiz I vorliegt, wenn die Hypothese H zutrifft. In der Terminologie von Armin Nack ist P(I | H) die Merkmalswahrscheinlichkeit, während P (H | I) die Belastungswahrscheinlichkeit ist.6 Die beiden werden oft verwechselt.7

[Rz 8] Für den Fall von zwei sich gegenseitig ausschliessenden Hypothesen, von denen eine zutreffen muss (Beispiel: «A ist der Vater von B», «A ist nicht der Vater von B») , lässt sich die bedingte Wahrscheinlichkeit, dass die Hypothese bei Vorliegen des Indizes I (Beispiel: «A und B haben die gleiche Blutgruppe, die nur bei zehn Prozent der Bevölkerung vorkommt»), wie folgt errechnen

Formel 2:P (H | I) =P(H) ∙ P(I | H)
P(H) ∙ P(I | H) + P(¬H) ∙ P(I | ¬H)

[Rz 9] In dieser Form wird das Bayes-Theorem meist in der juristischen oder psychologischen Literatur dargestellt.8 Im Zusammenhang mit Diagnoseverfahren wird das Vorhandensein von Indiz I, obwohl die Hypothese H nicht zutrifft (also P(I | ¬H)), als «falsch positiv» bezeichnet, und die Rate der falsch positiven Befunde ist ein wichtiges Kriterium für die Beweiskraft des Tests (Beispiel: Der Gynäkologe ertastet Knötchen in der Brust einer Patientin, obwohl die Hypothese «Brustkrebs» nicht vorliegt).


III. Denken in Repräsentativität ^

[Rz 10] Dass das Bayes-Theorem nicht beschreibt, wie Menschen tatsächlich mit probabilistischen Informationen umgehen, ist in der Psychologie bereits seit mehr als 40 Jahren bekannt. Anfang der siebziger Jahre postulierten Daniel Kahneman und Amos Tversky, dass Menschen sich einer Repräsentativitätsheuristik (representative heuristic) bedienen, wenn sie die Wahrscheinlichkeit des Vorliegens einer Tatsache einschätzen.9 Vereinfacht gesagt, besagt sie, dass der Mensch auch dort assoziativ denkt, wo er komparativ denken sollte.10 Einige typische Fehler, die aus dem repräsentativen Denken resultieren, werden nachfolgend kurz dargestellt.

A. Was typisch ist, ist beweiskräftig ^

[Rz 11] Beweisanzeichen, die typisch sind für eine bestimmte Tat, müssen nicht notwendigerweise diagnostisch sein. Kinder, die über sexuelle Übergriffe berichten, zögern oft und widerrufen bereits gemachte Aussagen.11 Die Zurücknahme einer Anschuldigung ist daher nicht untypisch für ein missbrauchtes Kind und Teil von SUMMITs «Child Sexual Abuse Accomodation Syndrome».12

[Rz 12] Nur, wie gross ist die Wahrscheinlichkeit, dass ein Kind, das nicht missbraucht wurde und beispielsweise durch suggestive Fragen dazu gebracht wurde, unrichtige Anschuldigungen zu erheben,13 diese Aussagen später widerruft? Der gesunde Menschenverstand sagt einem, dass die Rate der widerrufenen Anschuldigungen in diesem Fall höher sein muss. Der Widerruf einer Anschuldigung muss daher ein entlastendes Indiz sein. Wie entlastend, können nur empirische Untersuchungen zeigen, die eine Kontrollgruppe verwenden und den Vergleich der Wahrscheinlichkeit eines Widerrufs bei tatsächlichem Missbrauch und suggeriertem Missbrauch erlauben.

[Rz 13] Auch andere Anzeichen, die oft als «typisch» für Kindsmissbrauch angesehen werden, taugen nicht als Indizien für Missbrauch. So ist eine Rötung der Genitalien bei missbrauchten Kindern zwar häufig, aber bei nicht missbrauchten ebenso.14 Auch psychosomatische Symptome wie Bettnässen, Kopfschmerzen oder Verstopfung treten bei missbrauchten Kindern nicht häufiger auf als bei nicht missbrauchten Kindern in vergleichbarer Situation.15 Von der Typizität der Symptome auf die Ursache zu schliessen, ohne die Häufigkeit der Symptome bei Nicht-Vorliegen der Ursache zu kennen, ist ein typischer Fehler assoziativen Denkens.

[Rz 14] Als Indizien für oder gegen den Missbrauch taugen nur Symptome, deren Häufigkeit bei nicht missbrauchten Kindern in vergleichbaren Umständen man ebenfalls kennt. Dies wurde inzwischen erkannt, und entsprechende Forschungsanstrengungen werden unternommen.16

[Rz 15] Der Jurist kann daraus lernen, dass sich der Beweiswert eines Indizes immer erst aus Beantwortung der drei folgenden Fragen ergibt:
  1. Wie häufig kommt das Indiz bei der Haupttatsache vor?
  2. Wie häufig kommt das Indiz (auch) bei der Nicht-Haupttatsache vor?
  3. Wo kommt das Indiz häufiger vor, bei Gruppe 1 oder bei Gruppe 2?17
[Rz 16] Lässt sich die Frage 2 nicht beantworten, weil keine Daten vorliegen, so ist das Indiz wissenschaftlich wertlos.

B. Der Trugschluss des Anklägers ^

[Rz 17] Angenommen, Sie haben einen Fall zu beurteilen, bei dem ein Mann, der in etwa der Beschreibung des Täters entspricht, in der Nähe des Tatorts verhaftet wurde. Es gibt keine (weiteren) belastenden Indizien gegen ihn, ausser einem: am Tatort wurde ein Haar gefunden, das vom Haar des Verdächtigen nicht unterschieden werden kann, und der forensische Gutachter äussert sich wie folgt:
    Wenn der Verdächtige unschuldig wäre, betrüge die Wahrscheinlichkeit, dass die Haarproben nicht unterschieden werden können, nur 2%.
[Rz 18] 22% der Versuchspersonen, die mit der obigen Aussage konfrontiert wurden, gaben eine Wahrscheinlichkeit von 98% an, dass der Verdächtige schuldig ist.18 Sie begingen den Fehler, P(H | I) gleichzusetzen mit 1 – P(I | H).19 Dieser Fehler wird gewöhnlich als «Trugschluss des Anklägers» bezeichnet.20

[Rz 19] Präsentiert der Sachverständige jedoch seine Erkenntnisse in der Form von Häufigkeiten
    Nur 2% aller Menschen haben Haare, die sich mikroskopisch nicht von den Haaren des Täters unterscheiden lassen. In einer Stadt mit einer Million Einwohner sind dies rund 20'000 Personen.
[Rz 20] dann begehen nur 4% der Befragten den Fehler, P(H | I) gleichzusetzen mit 1 – P(I | H).21 Zu ähnlichen Ergebnissen gelangten Lindsey et al. in einem Experiment mit 127 Jurastudierenden und 27 wissenschaftlichen Angestellten der juristischen Fakultät der Freien Universität Berlin.22 Wurden Informationen eines DNA-Gutachtens in Wahrscheinlichkeiten dargestellt, konnten nur 8% der Versuchspersonen die gestellten Fragen korrekt beantworten, gegenüber 40% richtigen Antworten bei der Darstellung in natürlichen Häufigkeiten.23 Die Darstellung in natürlichen Häufigkeiten beeinflusste auch das Urteil über die Schuld: Bei der Darstellung in Wahrscheinlichkeiten waren mehr als die Hälfte (55%) der Versuchspersonen von der Schuld des Angeklagten überzeugt (obwohl 92% von ihnen die statistischen Informationen nicht verstanden hatten!), bei der Darstellung in natürlichen Häufigkeiten bei ansonstem gleichen Sachverhalt nur 33%.24

[Rz 21] Trugschlüsse des Anklägers sind kein Artefakt von gesuchten Experimenten. Taroni/Mangin/Bär weisen darauf hin, dass sich falsche Argumente wie das folgende häufig in Expertengutachten finden:25
    Es lassen sich keine Unterschiede zwischen den Merkmalen in der untersuchten Spur und denjenigen bestimmt beim Verdächtigen auffinden. Eine solche Befundkonstellation lässt sich bei ca. 0,001 % der Bevölkerung nachweisen. Die Wahrscheinlichkeit, dass die Spur vom Tatverdächtigen stammt, ist grösser als 99,999 %.
[Rz 22] In einem Grundsatzurteil zur DNA-Analyse befasste sich der deutsche Bundesgerichtshof mit den folgenden Aussagen eines Sachverständigen: Die Kombination der Merkmale aller drei DNA-Polymorphismen komme nur bei 0,014 Prozent der Bevölkerung, d.h. bei einer von 6'937 Personen, vor. Deshalb könne mit einer «Wahrscheinlichkeit von 99,986 Prozent (100 Prozent abzüglich 0,014 Prozent)» festgestellt werden, dass der Angeklagte der Verursacher des Spermas aus der Scheide der Geschädigten sei. Zu dieser Aussage konnte der Gutachter aber nur gelangen, weil er – wie das Gutachter oft tun,26 aber nicht tun sollten27 – von einer «neutralen» Anfangswahrscheinlichkeit von 0,5 ausging, dass das Sperma vom Angeklagten stammt. Die Feststellung der Belastungswahrscheinlichkeit aus der Merkmalswahrscheinlichkeit setzt aber die Berücksichtigung der Anfangswahrscheinlichkeit voraus. Dass diese 0,5 beträgt, durfte der Sachverständige annehmen, nicht aber das Gericht. Der BGH wies ausdrücklich darauf hin, dass die vom Sachverständigen genannte Merkmalswahrscheinlichkeit von 0,014 bei einer Stadt der Grösse von Hannover mit ungefähr 250'000 Einwohnern immerhin bedeutet, dass 35 männliche Personen aus Hannover als Täter nicht ausgeschlossen werden können.28

[Rz 23] Um die Gefahr zu verringern, dass der Richter dem Trugschluss des Anklägers unterliegt, sollte sich ein Gutachter daher nur zur Merkmalswahrscheinlichkeit und nicht (auch) zur Belastungswahrscheinlichkeit äussern. Aussagen zur Belastungswahrscheinlichkeit setzen Annahmen über die Anfangswahrscheinlichkeit voraus. Der Gutachter kann diese Annahmen in der Regel nicht treffen, weil er nicht den gesamten Sachverhalt kennt.29 Gutachter versuchen diesem Problem zu entgehen, indem sie mit einer «neutralen» Anfangswahrscheinlichkeit von 50% rechnen.30

[Rz 24] Die «neutrale» Anfangswahrscheinlichkeit von 50% wirkt sich aber häufig stark zu Lasten des Angeschuldigten aus. Bei einem Abstammungsgutachten mag sie, in Anbetracht der Ausschlussleistung moderner DNA-Gutachten (insbesondere, wenn die Proben, wie bei Vaterschaftsgutachten, gut sind), angemessen sein. Die Mutter des Kindes wird während der möglichen Empfängniszeit, die relativ klar eingegrenzt werden kann, nicht mit einer beliebigen Vielzahl von Männern geschlafen haben. Die Anfangswahrscheinlichkeit ist daher bereits relativ gross, wenn man weiss, dass der mögliche Vater einer der Männer ist, die zum Empfängniszeitpunkt Geschlechtsverkehr mit der Mutter hatten.

[Rz 25] Anders liegt der Fall aber bei Spuren, die am Tatort eines Verbrechens gesichert werden. Der Kreis der möglichen Täter ist dort erst einmal sehr gross, so dass man nicht einfach von einer Wahrscheinlichkeit von 50%, dass der Verdächtige der Täter ist, ausgehen darf.31

[Rz 26] Der Gutachter sollte daher richtigerweise nur die Merkmalswahrscheinlichkeit angeben, d.h. die Häufigkeit, mit der ein bestimmtes Merkmal in der Gesamtbevölkerung vorkommt.32

[Rz 27] Wenn der Gutachter in solchen Fällen die Belastungswahrscheinlichkeit – Bär spricht von «Identitätswahrscheinlichkeit»33 – angibt, wird der Richter auf den Holzweg geführt. Die ohnehin schon bestehende Gefahr, dass die Anfangswahrscheinlichkeit vernachlässigt wird, steigert sich praktisch zur Gewissheit, da kaum ein Richter die Berechnungen des Gutachters nachprüfen und feststellen wird, dass dieser von einer Anfangswahrscheinlichkeit von 50% ausgegangen ist.

[Rz 28] Gutachter sollten ihre Angaben zur Merkmalswahrscheinlichkeit in DNA-, Faser- und ähnlichen Gutachten zudem in der Form von natürlichen Häufigkeiten machen; also beispielsweise «Es kommen grundsätzlich zehn Millionen Männer als Täter in Frage. Ungefähr zehn von ihnen haben ein DNA-Profil, das mit der Tatortspur übereinstimmt. Wenn jemand dieses Profil aufweist, ist es praktisch sicher, dass die DNA-Analyse eine Übereinstimmung anzeigt. Unter den 9'999'990 Männern, deren DNA-Profil nicht mit der Tatortspur übereinstimmt, wird die DNA-Analyse in 100 Fällen ebenfalls eine Übereinstimmung feststellen».34 Durch diese Art der Präsentation statistischer Informationen lassen sich viele unnötige Fehler vermeiden.

C. Der Trugschluss des Verteidigers ^

[Rz 29] Die Anklage im Prozess gegen O.J. Simpson, dem vorgeworfen wurde, seine Frau ermordet zu haben, brachte als belastendes Indiz vor, dass der Angeklagte seine Frau nachweislich geschlagen hatte. Alan M. Dershowitz, Harvard Professor und einer der Mitglieder von O.J. Simpsons «Dream Team» der Verteidigung, wandte dagegen ein, dass nur etwa ein Zehntel eines Prozentes aller Männer, die ihre Frau schlagen, diese auch umbringen.

[Rz 30] Das Argument von Dershowitz ist auf den ersten Blick einleuchtend: Es ist sehr, sehr selten, dass ein Mann, der seine Frau schlägt, diese auch umbringt, daher ist das Indiz, dass O.J. Simpson seine Frau geschlagen hat, auch nicht (sehr) belastend. «Ermorden» ist mit anderen Worten untypisch für «schlagen».

[Rz 31] Der Statistiker Irving J. Good wies in einem Leserbrief an die Zeitschrift Nature den Fehler in Dershowitzs Argumentation nach (und Gigerenzer zeigt, dass seine Überlegungen sehr viel leichter verständlich werden, wenn man sie in natürlichen Häufigkeiten darstellt).35 Wenn man sich 10'000 geschlagene Ehefrauen vorstellt, wird von diesen in einem bestimmten Jahr eine von ihrem Ehemann ermordet: «ein Zehntel eines Prozentes aller Männer, die ihre Frau schlagen», bringen sie auch um, also wird eine von 1´000 geschlagenen Ehefrauen von ihrem Mann ermordet.36 Geht man von einer durschnittlichen Dauer der Ehe von zehn Jahren aus, beträgt das Risiko, in einem bestimmten Jahr vom schlagenden Ehemann ermordet zu werden, eins zu zehntausend. Good stellt weiter fest, dass in den USA jährlich rund 25'000 Personen ermordet werden; bei einer Bevölkerung von rund 250 Millionen beträgt daher die Wahrscheinlichkeit für eine beliebige Person,37 und somit auch für die Frau eines schlagenden Mannes, in einem bestimmten Jahr ermordet zu werden, ebenfalls eins zu zehntausend. Von 10´000 geschlagenen Frauen werden in einem Jahr statistisch gesehen daher zwei ermordet, eine von ihrem schlagenden Ehemann, die andere von einem Dritten. Mit anderen Worten beträgt die Wahrscheinlichkeit, dass der schlagende Ehemann der Täter ist, noch bevor irgendwelche anderen Beweise erhoben werden, 50%.


IV. Das Bayes-Theorem im gerichtlichen Alltag ^

[Rz 32] In der amerikanischen und deutschen Literatur werden die Vor- und Nachteile der Beweiswürdigung nach Bayes intensiv diskutiert.38 Es würde den Rahmen dieses Aufsatzes sprengen, diese Debatte hier wiederzugeben. Die Mehrheit der deutschen und amerikanischen Lehre vertritt die (vernünftige) Mittelposition, dass Gerichte ihre Urteile nicht gleichsam errechnen müssen, d.h. den einzelnen Hypothesen explizite Wahrscheinlichkeitswerte zuordnen und diese nach dem Bayes-Theorem kombinieren, aber das Bayes-Theorem als qualitative Richtschnur verwenden sollten. Das Bayes-Theorem als Urteilsheuristik ist auf jeden Fall der ungestützten Intuition vorzuziehen, die, wie gezeigt, oft in die Irre führt. Wenn man wie die schweizerische Prozessrechtslehre verlangt, dass die Beweiswürdigung «die Gesetze der Logik nicht verletzen [darf]»39 und der Richter zu «gewissenhafter Schlussfolgerung aufgrund des Ergebnisses des Beweisverfahrens»40 verpflichtet ist, kann man sich der Folgerung kaum entziehen, dass das Bayes-Theorem der normative Standard ist, an dem die Kohärenz der Beweiswürdigung gemessen werden muss.

[Rz 33] Macht man ernst mit der Anwendung des Bayes-Theorems in der gerichtlichen Praxis, ist man schnell mit verschiedenen Problemen konfrontiert. Eines ist die schiere Komplexität der Berechnungen, wenn mehrere, oft untereinander abhängige, Indizien kombiniert werden müssen;41 ein anderes, wie man zur Anfangswahrscheinlichkeit gelangt, die am Ausgangspunkt jeder Anwendung des Bayes-Theorems steht. Diese Fragen sind alles andere als trivial, aber sie sind kein Grund, das Bayes-Theorem in Bausch und Bogen zu verwerfen. Nachstehend wird versucht, Lösungen für die zwei genannten Probleme zu skizzieren.

A. Das Problem der Anfangswahrscheinlichkeit ^

[Rz 34] Das Bayes-Theorem erlaubt die widerspruchsfreie Kombination von Anfangs- und Merkmalswahrscheinlichkeit. Es gibt aber keine Antwort darauf, wie man zu diesen Wahrscheinlichkeiten gelangt. Eine Theorie der Beweiswürdigung, die nur die Kombination bekannter Wahrscheinlichkeiten erlaubt, aber keine Hinweise darauf gibt, wie man zu diesen Wahrscheinlichkeiten gelangt, ist unvollständig und für die Praxis wenig nützlich.


1. Die massgebliche Referenzklasse ^

[Rz 35] Die meisten Menschen ignorieren im anfangs geschilderten Taxi-Problem die stadtweite Verteilung der Taxis – es gibt stadtweit rund fünf Mal mehr blaue als grüne Taxis, also ist die Wahrscheinlichkeit, dass ein blaues Taxi den Unfall verursacht hat, a priori höher. Die Frage ist aber berechtigt, warum die stadtweite Verteilung der Taxis massgeblich sein soll: Der Unfall geschah nachts, wäre es nicht wichtiger, zu wissen, welche Taxis nachts unterwegs waren? Und, wenn wir schon dabei sind, welche Taxis nachts in dem Stadtteil, in dem sich der Unfall ereignet hat, unterwegs waren? Oder wie gross der Anteil der grünen Taxis an den Taxis ist, die einen Unfall verursacht haben – vielleicht gibt es zwar viel mehr blaue Taxis, aber die grünen Taxis sind häufiger in Unfälle verwickelt.42

[Rz 36] Sicher ist «grüne und blaue Taxis, die in Unfälle verwickelt waren» eine relevantere Häufigkeit als die stadtweite Verteilung grüner und blauer Taxis, weil sie auf mehr Informationen beruht und insbesondere die Neigung der verschiedenfarbigen Taxis, in Unfälle verwickelt zu sein, berücksichtigt. Interessanterweise wird die Basisrate der Taxis, die in Unfälle verwickelt sind, bei der Lösung des Taxi-Problems von der Mehrheit der Versuchspersonen beachtet, nicht aber die stadtweite Verteilung der Taxis an sich.43 Die Referenzklassen «Taxis, die nachts in Unfälle verwickelt waren» oder «Taxis, die nachts in diesem Stadtteil in Unfälle verwickelt waren», oder gar «Taxis, die nachts in dieser Strasse in Unfälle verwickelt waren», teilen immer mehr Eigenschaften mit dem zu beurteilenden Ereignis und berücksichtigen insofern die Umstände des Einzelfalles besser. Sie werden aber auch immer kleiner, weshalb die Verlässlichkeit der Häufigkeitsschätzung abnimmt.

[Rz 37] Die relevante Referenzklasse gibt es demnach nicht. Eine spezifischere Häufigkeit reduziert die Unsicherheit zweiten Grades (ob die relative Häufigkeit auch auf den Einzelfall zutrifft), weil sie die Menge der Informationen reduziert, die die Schätzung beeinflussen kann.44 Andererseits erhöht sich die Gefahr, dass die beobachtete Häufigkeit nicht dem Grenzwert der relativen Häufigkeit entspricht, umso mehr, je kleiner die Stichprobe ist, in der die Häufigkeit beobachtet wird. Paul E. Meehl schlägt daher als Faustregel vor, als beste Referenzklasse immer die kleinste Klasse zu berücksichtigen, der das zu beurteilende Ereignis zugeordnet werden kann und deren Anzahl Mitglieder gross genug ist, um verlässliche Schätzungen der relativen Häufigkeit zu erlauben.45

[Rz 38] Was aber, wenn es keine Angaben darüber gibt, wie viele grüne im Verhältnis zu blauen Taxis in nächtliche Unfälle verwickelt waren? Dieser Fall dürfte in der Praxis häufig sein. Darf man dann die bekannte, aber unspezifische Referenzklasse «alle in der Stadt zugelassenen Taxis» einfach ignorieren? Wenn das Ziel ist, ein möglichst genaues, d.h. dem tatsächlich Vorgefallenen entsprechendes, Urteil zu treffen, lautet die Antwort nein. Denn wenn man die stadtweite Verteilung nicht beachtet, muss man – mangels anderer Indizien – davon ausgehen, dass grüne und blaue Taxis gleich häufig in Unfälle verwickelt sind und somit die Anfangswahrscheinlichkeit, dass es sich um ein grünes Taxi gehandelt hat, 0,5 beträgt. Die Häufigkeit von grünen und blauen Taxis in der ganzen Stadt ist aber ein Indiz dafür, dass dies nicht zutrifft. Wenn 85% der Taxis in der Stadt blau sind, ist die beste Schätzung – ohne zusätzliche Informationen – dass auch 85% der in nächtliche Unfälle verwickelten Taxis blau sind.46 Jede Abweichung von dieser Basisrate ist zu begründen – die Gesellschaft mit den blauen Taxis könnte beispielsweise mittels der Einsatzpläne ihrer Fahrer nachweisen, dass sie nachts kaum Taxis in Betrieb hat, etc.

[Rz 39] Darüber, ob eine Referenzklasse die richtige ist, d.h. ob deren Randbedingungen auch auf den zu beurteilenden Fall zutreffen, lässt sich trefflich streiten. Wenn man sich aber bewusst ist, warum und worüber man streitet, kann man wenigstens die richtigen Fragen stellen und die konkreten Randbedingungen der Referenzklasse, die die Entscheidung begründen, werden transparent gemacht und können diskutiert werden.47

2. Geschätzte Anfangswahrscheinlichkeiten, oder «garbage in, garbage out»? ^

[Rz 40] Bei den obigen Ausführungen zur massgeblichen Referenzklasse wurde vorausgesetzt, dass man die relativen Häufigkeiten in den verschiedenen Referenzklassen kennt. In der Praxis ist man aber häufig mit der Situation konfrontiert, dass man die relativen Häufigkeiten nicht kennt, weil keine Daten dazu erhoben wurden. Der Richter kann daher nicht vermeiden, die relativen Häufigkeiten zu schätzen, weil er – anders als der Wissenschafter – mangels Daten nicht einfach auf ein Urteil verzichten kann. Er ist gezwungen, auch dann zu urteilen, wenn die empirische Datenbasis ungenügend ist.

[Rz 41] Oft wird nun der Vorwurf erhoben, dass damit die ganze auf der Wahrscheinlichkeitstheorie beruhende Beweislehre wertlos ist, weil ihr Ausgangspunkt auf subjektiven, nicht empirisch erhärteten Schätzungen beruht. Bender/Nack bemerken dazu Folgendes:48

    Wenn man die Forderung aufstellt, dass der Richter die drei Fragen der Fragen-Trias [es handelt sich um die vorne, Rz 15, wiedergegebenen Fragen] stellen – und beantworten! – muss, wird einem oft entgegengehalten, dass man über die Häufigkeitsverteilungen in der Regel keine Aussagen – und schon gar keine empirisch abgesicherten Aussagen – machen kann. Nur: Deswegen werden die richtigen Fragen nicht falsch. Denn allein das wäre die Alternative: Wenn man nichts über Häufigkeiten weiss und sie noch nicht einmal abschätzen kann, dann kann man logischerweise auch nicht entscheiden, ob ein Indiz belastend ist oder nicht. Daran, dass man oft sehr wenig über die Häufigkeitsverteilungen weiss, kann auch die Beweislehre nichts ändern. Es führt aber kein Weg daran vorbei, dass der Richter sich wenigstens auf Plausibilitätsniveau Vorstellungen über Häufigkeitsverteilungen machen muss, wenn er die Beweiskraft eines Indizes abschätzen will.
[Rz 42] Empirische Studien belegen, dass die Zerlegung eines Beweisthemas in einzelne Beweisfakten und die Abschätzung des abstrakten Beweiswertes (d.h. wie viel häufiger tritt das Indiz auf, wenn die Hypothese zutrifft, als wenn die Hypothese nicht zutrifft?) von einzelnen Indizien die Qualität der Entscheide selbst dann erhöht, wenn der Beweiswert ohne empirische Grundlage geschätzt wird.49 Die Resultate von Schum/Martin lassen den Schluss zu, dass Menschen weniger mit der Beurteilung einzelner abstrakter Beweiswerte Mühe haben, sondern vielmehr mit der Integration grosser Mengen von teilweise widersprüchlichen Informationen. Diese Integration kann ihnen das Bayes-Theorem abnehmen. Über Beurteilung des Beweiswerts, der vom Bayes-Theorem als gegeben vorausgesetzt wird, scheinen sich Menschen eher einig zu werden als über die korrekte Integration der einzelnen Beweismittel zu einem Gesamtbild.

B. Integration mehrerer Indizien ^

[Rz 43] Wenn mehrere Indizien voneinander unabhängig sind – die Wahrscheinlichkeit, dass das zweite Indiz auftritt, hängt nicht davon ab, ob das erste Indiz vorliegt – ist die Integration mehrerer Indizien einfach: Man nimmt die Anfangswahrscheinlichkeit, wendet das Bayes-Theorem mit der Merkmalswahrscheinlichkeit des ersten Indiz darauf an, und nimmt das Resultat als Ausgangspunkt für die nächste Anwendung des Bayes-Theorems mit der Merkmalswahrscheinlichkeit des zweiten Indizes. Wer nicht selber rechnen will, kann einen der zahlreichen Bayes-Rechner im Internet verwenden (z.B. http://statpages.org/bayes.html oder http://psych.fullerton.edu/­mbirnbaum/bayes/BayesCalc.htm). Alternativ kann man die Wahrscheinlichkeit, dass beide Indizien gleichzeitig auftreten, auch mit der Produktregel errechnen und das Ergebnis als Ausgangspunkt für die Anwendung des Bayes-Theorems nehmen:

Formel 3:    P (I1 und I2) = P (I1) ∙ P (I2)

[Rz 44] Beispielsweise wird beim Verdächtigen ein Kleidungsstück gefunden, dessen Fasern mit den am Tatort gefundenen Fasern übereinstimmen. Wäre der Verdächtige nicht am Tatort gewesen, betrüge die Wahrscheinlichkeit der Übereinstimmung 0,2 (20%). Die Haare des Verdächtigen stimmen ebenfalls mit einem Tatort gefundenen Haar überein; wäre der Verdächtige nicht am Tatort gewesen, betrüge die Wahrscheinlichkeit einer Übereinstimmung 0,05 (5%). Die Wahrscheinlichkeit, dass sowohl Faser- wie Haarprobe übereinstimmen, obwohl der Verdächtige nicht am Tatort war, beträgt 0,2 x 0,05 = 0,01, oder 1%, wenn die beiden Spuren voneinander unabhängig sind (was man hier wohl annehmen darf). Diese Merkmalswahrscheinlichkeit wendet man wiederum gemäss dem Bayes-Theorem auf die Anfangswahrscheinlichkeit an.

[Rz 45] Die Anwendung der Produktregel ist aber unzulässig, wenn die Indizien voneinander abhängig sind. Beispielsweise ist der Verdächtige blond und blauäugig, was mit der Beschreibung des Täters übereinstimmt. Wenn ein Fünftel der Bevölkerung blonde Haare hat, und ein Fünftel der Bevölkerung blaue Augen, darf man dann davon ausgehen, dass die Wahrscheinlichkeit, dass der Verdächtige zufällig mit der Beschreibung des Täters übereinstimmt, 0,2 x 0,2 = 0,04, oder 4%, beträgt? Man darf nicht, denn die Wahrscheinlichkeiten für das Auftreten von blauen Augen und blonden Haaren sind offensichtlich voneinander abhängig – viel mehr Menschen mit blonden Haaren haben blaue Augen als Menschen mit schwarzen Haaren. Das Indiz «blaue Augen» ist (teilweise) redundant, wenn man das Indiz «blonde Haare» bereits berücksichtigt hat, d.h. sein Informationsgehalt ist ganz oder teilweise im bereits berücksichtigten Indiz enthalten.

[Rz 46] Kennt man die Korrelation von blonden Haaren und blauen Augen, d.h. weiss man, wie viele blonde Menschen blaue Augen haben, kann man die Wahrscheinlichkeit des gleichzeitigen Vorliegens der beiden Indizien gemäss der folgenden Formel berechnen:

Formel 3:    P (I1 und I2) = P (I1) ∙ P (I2 | I1).

[Rz 47] Wenn beispielsweise 80% aller blonden Menschen blaue Augen haben, beträgt die Wahrscheinlichkeit, dass der Verdächtige zufällig mit der Beschreibung des Täters übereinstimmt 0,2 x 0,8 = 0,16, oder 16%. Die Wahrscheinlichkeit einer zufälligen Übereinstimmung ist also vier Mal höher als wenn man annimmt, dass die Indizien unabhängig sind. Wenn P (I2 | I1) ≈ 1 ist, verringert sich die Merkmalswahrscheinlichkeit bei Vorliegen des zweiten Indizes praktisch nicht mehr. Einfacher ist es oft, abhängige Indizien zu «Indizienfamilien» zusammenzufassen, deren Merkmalswahrscheinlichkeit gesamthaft beurteilt wird.50 Im vorerwähnten Beispiel würde man beispielsweise von einem Indiz «blond und blauäugig» ausgehen, und die Wahrscheinlichkeit der zufälligen Übereinstimmung ausgehend von diesem Indiz schätzen (d.h. wie gross ist der Anteil blonder und blauäugiger Menschen an der Gesamtbevölkerung?).

[Rz 48] Die Abhängigkeit zweier Indizien ist aber nicht immer so offensichtlich wie im obigen Beispiel und wird bei der Gesamtwürdigung der Beweise häufig übersehen, wie Ergebnisse von Schum/Martin belegen.51 Schnell passiert es zum Beispiel, dass man Indizien, die die Anfangswahrscheinlichkeit begründet und zur Verhaftung des Verdächtigen geführt haben, bei der Beweiswürdigung nochmals berücksichtigt.52 Eine sorgfältige Begründung der Beweiswürdigung unter Berücksichtigung der subjektiven Wahrscheinlichkeitstheorie kann solche Fehler vermeiden helfen, die bei der in der Schweiz oft propagierten «Gesamtwürdigung»53 der Beweise schnell passieren.


V. Exkurs: Beweiswürdigung und DNA-Analysen ^

A. Die Technik der DNA-Analyse ^

[Rz 49] Obwohl die Technik der DNA54-Analyse für forensische Zwecke heute Routine ist, ist sie erstaunlich komplex, und ich will hier nicht auf die technischen Details eingehen.55 Die DNA ist ein fadenförmiges Molekül, das die menschliche Erbinformation enthält, und findet sich im Kern jeder menschlichen Zelle. Die DNA verschiedener Menschen ist überraschenderweise zu 99% identisch; an einigen wenigen bekannten Stellen (sinnigerwise «loci» genannt) unterscheidet sie sich aber zufällig. Man geht nach dem Stand der Wissenschaft davon aus, dass die Chance der Übereinstimmung jeder Stelle mit ihrem Äquivalent auf einer anderen DNA unabhängig von der Übereinstimmung anderer «loci» ist. Die Wahrscheinlichkeit der Übereinstimmung mehrerer «loci» lässt sich daher nach der oben erwähnten Produkt-Regel errechnen. Die Chance einer zufälligen Übereinstimmung von elf «loci» zweier DNA-Proben von verschiedenen, nicht verwandten, Menschen ist kleiner als 1 zu 10 Milliarden.56

B. Der Beweiswert von DNA-Analysen und falsch positive Resultate ^

[Rz 50] Übertragen auf das Taxi-Problem beantwortet diese Wahrscheinlichkeit die Frage, wie wahrscheinlich es ist, dass die Gesellschaft mit den blauen Taxis ausnahmsweise doch ein grünes Taxi besitzt. Der Zeuge, der das Taxi als grün identifiziert, irrt in diesem Fall nicht – das Taxi war tatsächlich grün. Aber der daraus gezogene Schluss, nämlich dass ein Taxi der Gesellschaft A (normalerweise die mit den grünen Taxis) den Unfall verursacht hat, ist falsch. Übertragen auf die DNA-Analyse bedeutet dies, dass die Analyse korrekt ist – die Proben stimmen tatsächlich überein – aber die Übereinstimmung ist eben zufällig, und der Schluss, dass die beiden Proben vom gleichen Menschen stammen, ist falsch.

[Rz 51] Wie beim Taxi-Problem gezeigt, ist die Möglichkeit, dass die Gesellschaft mit den blauen Taxis ausnahmsweise ein grünes Taxi besitzt, nicht die einzige Fehlerquelle. Ebenso wenig ist die – sehr, sehr, sehr kleine – Chance einer zufälligen tatsächlichen Übereinstimmung zweier verschiedener DNA-Proben die einzige Fehlerquelle bei der DNA-Analyse. Genauso wie der Zeuge einen Fehler machen und ein blaues Taxi als grün identifizieren kann, kann ein Analyselabor einen Fehler machen und zwei nicht übereinstimmende Proben als identisch bezeichnen.

[Rz 52] Ob diese Gefahr ernst zu nehmen ist, ist eine empirische Frage. Als forensische DNA-Analysen erstmals vor Gericht zugelassen wurden, gab es eine Reihe von Experten, die behaupteten, Fehler kämen bei der DNA-Analyse gar nie vor.57 Diese Behauptung wurde inzwischen in Theorie und Praxis widerlegt. Fehler können bei der Entnahme und der Handhabung von Proben vorkommen oder auf eine Fehlinterpretation oder Fehlübermittlung der Testresultate zurückzuführen sein. Besonders bei Proben, die am Tatort erhoben werden und Spuren verschiedener DNA enthalten, ist die Separation der einzelnen DNA-Stränge mitunter schwierig. Das Abschneiden eines Labors bei der Analyse von reinen Proben, wie sie in Probeläufen und bei Abstammungsgutachten verwendet werden, sagt daher wenig darüber aus, wie hoch die Wahrscheinlichkeit eines falsch positiven Befundes bei einer verunreinigten Spur ist. Dennoch wurden in proficiency tests, wie sie bei amerikanischen Labors regelmässig vorgenommen werden, wiederholt falsch positive Resultate gemeldet.58 In mindestens einem Fall hat ein Laborfehler zur Verurteilung eines Unschuldigen geführt.59 Für die frühen 90-er Jahre des letzten Jahrhunderts wurden Fehlerraten von 0,0008 bis 0,04 geschätzt.60 Cellmark Ltd, der führende Anbieter von forensischen DNA-Tests in den USA, musste auf Druck der Verteidigung im O.J. Simpson Prozess zugeben, dass seine eigene Fehlerrate bei rund 1:200 lag.61

[Rz 53] Na und, kann man sagen, wenn die Chance eines falsch positiven Resultates bei 1:200, oder einem halben Prozent, liegt, dann ist die Wahrscheinlichkeit, dass die beiden Proben tatsächlich übereinstimmen, doch dennoch 99,5%, und das dürfte für eine Verurteilung meist reichen. Der Leser dürfte inzwischen ahnen, das diese Annahme falsch ist. Thompson/Taroni/Aitken weisen darauf hin, dass die Vorstellung, die falsch positive Rate sei unerheblich, auf dem gleichen Denkfehler wie der Trugschluss des Anklägers beruht; sie sprechen von false positive fallacy.62 Man nimmt irrtümlicherweise an, dass, wenn die falsch positive Rate gering ist, die Wahrscheinlichkeit einer zu Unrecht gefundenen Übereinstimmung ebenfalls gering ist.

[Rz 54] Auch hier mag ein Häufigkeitsbaum die Analyse veranschaulichen (Abbildung 2). Angenommen, die Anfangswahrscheinlichkeit, dass der Spurengeber der Täter ist, beträgt eins zu tausend; die Chance einer zufälligen Übereinstimmung zweier Proben eins zu zehn Milliarden, und die Chance eines falsch positiven Ergebnisses eins zu zweihundert, wie bei Cellmark Ltd.

Häufigkeitsbaum 2
Abbildung 2: Häufigkeitsbaum zur DNA-Analyse

[Rz 55] Die Wahrscheinlichkeit, dass die beiden Proben vom gleichen Menschen stammen, beträgt daher tatsächlich nicht 99,5%, sondern weniger als ein Fünftel (1 : (1+5) = 0,17). Die hohe Ausschlussleistung der DNA-Analyse («Chance einer zufälligen Übereinstimmung von eins zu zehn Milliarden») ist irreführend, denn die Belastungswahrscheinlichkeit hängt nicht von ihr, sondern weitgehend von der Wahrscheinlichkeit eines falsch positiven Fehlers ab.

[Rz 56] Die Wahrscheinlichkeit eines falsch positiven Fehlers lässt sich nur empirisch durch Blindtests feststellen.63 Regelmässig durchgeführte Blindtests aller DNA-Labors sind zugegebenermassen aufwendig und teuer.64 Wiederholt wurde deshalb vorgeschlagen, dass die Gefahr von falsch positiven Treffern mit weniger Aufwand durch Doppelanalysen vermieden werden könne.65 Dies scheint auch die Auffassung des Bundesamtes für Polizei zu sein.

[Rz 57] Doppelanalysen sind aber nicht immer durchführbar, weil die am Tatort erhobenen Proben unter Umständen beim ersten Test verbraucht wurden. Eine Doppelanalyse kann auch nicht jeden Fehler korrigieren – wenn eine Kontaminierung der Probe erfolgte, ehe sie geteilt wurde, nützt auch eine zweite Analyse derselben Probe nichts.66 Die Fehlerreduktion durch Doppelanalyse ist schliesslich nur dann optimal, wenn die Ergebnisse der beiden Analysen untereinander unabhängig sind. Dies muss aber durchaus nicht der Fall sein – wenn der Fehler beim ersten Mal darauf zurückzuführen ist, dass die Probe besonders schwierig zu analysieren oder das Profil besonders schwierig zu interpretieren war, dann wird der gleiche Fehler mit erhöhter Wahrscheinlichkeit auch bei der zweiten Analyse gemacht werden. Doppelanalysen können die Wahrscheinlichkeit eines falsch positiven Ergebnisses wohl reduzieren, aber niemand behauptet, dass sie es ausschliessen können.67

[Rz 58] DNA-Analysen sind zweifellos sehr beweiskräftige Indizien. Ihr Wert für die Praxis soll nicht kleingeredet werden, und es ist absehbar, dass sie im gerichtlichen Alltag immer häufiger eine wichtige Rolle spielen werden. Der Richter sollte aber ob der spektakulären Erfolge der forensischen DNA-Analyse nicht vergessen, dass die DNA-Analyse nicht unfehlbar ist. Das Bayes-Theorems zeigt, welche Faktoren den abstrakten Beweiswert eines DNA-Gutachtens bestimmen. Kein Richter sollte sich aus falscher Rücksicht auf die Unfehlbarkeit des DNA-Gutachtens dazu gedrängt fühlen, einen Angeklagten zu verurteilen. Wenn keine anderen Beweismittel vorliegen, und der Richter nicht von der Schuld des Angeklagten überzeugt ist, lassen sich Zweifel trotz positivem Gutachten vernünftig begründen.




1Don Lyon/Paul Slovic, Dominance of Accuracy Information and Neglect of Base-Rates in Probability Estimates, Acta Psychologica 1976, 287-298; Maya Bar-Hillel, The Base-Rate Fallacy in Probability Judgments, Acta Psychologica 1979, 211-233, 220; Amos Tversky/Daniel Kahneman, Causal schemas in judgments under uncertainty, in: Martin Fishbein (Hrsg.), Progress in social psychology, Hillsdale 1980, 49-72; Mark Schweizer, Kognitive Täuschungen vor Gericht, Diss. Zürich 2005, 162 (alle zum Taxi-Problem); W. Casscells/A. Schoenberger/T. Grayboys, Interpretation by Physicians of Clinical Laboratory Results, New England Journal of Medicine 1978, 999-1000; David M. Eddy, Probabilistic Reasoning in Clinical Medicine: Problems and Opportunities, in: Daniel Kahneman/Paul Slovic, Paul/Amos Tversky, (Hrsg.), Judgment Under Uncertainty: Heuristics and Biases, Cambridge 1982, 249-267; Chris Guthrie/Jeffrey J. Rachlinski/Andrew J. Wistrich, Inside the Judicial Mind, Cornell Law Review 2001, 777-830, 809 (zu verwandten Problemen).
2So bennannt nach dem presbyterianischen Pfarrer und Mathematiker Thomas Bayes (1702-1761); möglicherweise aber zu Unrecht, siehe Stephen M. Stigler, Who discovered Bayes's Theorem?, The American Statistician 1983, 290-296.
3Gerd Gigerenzer, Die Repräsentation von Information und ihre Auswirkung auf statistisches Denken, in: Wolfgang Hell/Klaus Fiedler/Gerd Gigerenzer (Hrsg.), Kognitive Täuschungen: Fehl-Leistungen und Mechanismen des Urteilens, Denkens und Erinnerns, Heidelberg 1993, 99-127; Gerd Gigerenzer/Ullrich Hoffrage, How to Improve Bayesian Reasoning Without Instructions: Frequency Formats, Psychological Review 1995, 684-704; Peter Sedlmeier/Gerd Gigerenzer, Teaching Bayesian Reasoning in Less Than Two Hours, Journal of Experimental Psychology: General 2001, 380-400.
4Daniel Kahneman/Amos Tversky, On the Psychology of Prediction, Psychological Review 1973, 237-251.
5Für eine auch für nicht-Mathematiker verständliche Herleitung des Bayes-Theorem aus den Axiomen der Wahrscheinlichkeitstheorie siehe Christophe Champod/Franco Taroni, Probabilités au procès pénal – risques et solutions, Schweizerische Zeitschrift für Strafrecht 1994, 195-219, 214 ff.; Schweizer, FN 1, 275 ff.
6Armin Nack, Beweiswürdigung beim Indizienbeweis, Kriminalistik 1995, 466-470, 468.
7Nack, FN 6, 469; Robyn M. Dawes, Representative Thinking in Clinical Judgment, Clinical Psychology Review 1986, 425-441, 430; Franz Eisenführ/Martin Weber, Rationales Entscheiden, Heidelberg 1993, 171 f.; Reid Hastie/Robyn M. Dawes, Rational Choice in an Uncertain World: The Psychology of Judgement and Decision Making, Thousand Oaks, 2001, 127; Gäelle Villejoubert/David R. Mandel, The Inverse Fallacy: An Account of Deviations from Bayes's Theorem and the Additivity Principle, Memory & Cognition 2002, 171-178, 171.
8Z.B. Rolf Bender /Armin Nack, Tatsachenfeststellung vor Gericht, Bd. 1 Glaubwürdigkeits- und Beweislehre, 2. Aufl. München 1995, Rz. 401, dort auch Erweiterung auf mehrere Indizien.
9Daniel Kahneman/Amos Tversky, Subjective probability: A Judgment of Representativeness, Cognitive Psychology 1972, 430-454, 431
10Kahneman und Tversky haben die Definition dessen, was «repräsentativ» bedeutet, verschiedentlich ausgeweitet, Amos Tversky/Daniel Kahneman, Judgments of and by Representativeness, in: Kahneman/Slovic/Tversky (Hrsg.), FN 1, 84-100, 87; nicht ganz zu Unrecht wurde ihnen vorgeworfen, dass die Definition sehr vage und offen wird, Margrit Oswald, Urteile über den Repräsentativitätsheurismus, Archiv für Psychologie 1986, 113-125, 114 ff.
11Teena Sorensen/Barbara Snow, How Children Tell: The Process of Disclosure in Child Sexual Abuse, Child Welfare 1991, 3-15, zitiert in Debra Poole/D. Stephen Lindsay, Assessing the accuracy of young children's reports: Lessons from the Investigation of Child Sexual Abuse, Applied & Preventive Psychology 1998, 1-26, 9.
12Poole/Lindsay, FN 11, 7.
13Diese Wahrscheinlichkeit ist, bei unprofessionell geführten Interviews, nicht unbeträchtlich, siehe die bei Poole/Lindsay, FN 11, 4, erwähnten Studien.
14Siehe die bei Thomas D. Lyon/Jonathan J. Koehler, The Relevance Ratio: Evaluating the Probative Value of Expert Testimony in Child Sexual Abuse Cases, Cornell Law Review 1996, 43-78, Fn. 36 zitierten Studien.
15Poole/Lindsay, FN 11, 9.
16Poole/Lindsay, FN 11, 9.
17Nack, FN 6, 467.
18William C. Thompson/Edward L. Schumann, Interpretation of Statistical Evidence in Criminal Trials: The Prosecutor's Fallacy and the Defense Attorney's Fallacy, Law and Human Behavior 1987, 167-187, 174.
19Thompson/Schumann, FN 18, 174.
20David J. Balding/Peter Donnelly, The Prosecutor's Fallacy and DNA Evidence, Criminal Law Review 1994, 711-721; Thompson/Schumann, FN 18, 171; Ian Stewart, Der Trugschluss des Ermittlers, Spektrum der Wissenschaft Juli 1997, 8.
21Thompson/Schumann, FN 18, 174.
22Samuel Lindsey/Ralph Hertwig/Gerd Gigerenzer, Communicating Statistical DNA Evidence, Jurimetrics 2003, 147-163.
23Stefan Kraus/Ralph Hertwig, Muss DNA-Evidenz schwer verständlich sein?, Monatsschrift für Kriminologie und Strafrechtsreform 2000, 155-162, 160 (es handelt sich um die gleiche Studie wie Lindsey et al., FN 22).
24Krauss/Hertwig, FN 23, 160.
25Franco Taroni/Patrice Mangin/Walter Bär, Die Interpretation des Beweiswertes von DNA-Untersuchungen in sachverständigen Gutachten, Schweizerische Zeitschrift für Strafrecht 1999, 439-445, 440.
26Walter Bär, Zum Beweiswert der DNA-Analyse, in: Andreas Donatsch/Niklaus Schmid (Hrsg.), Festschrift für Jörg Rehberg, Zürich 1996, 41-51, 46.
27Franco Taroni/Colin Aitken, Probabilités et preuve par l'ADN dans les affaires civiles et criminelles: Questions de la cour et réponses fallacieuses des experts, Schweizerische Zeitschrift für Strafrecht 1998, 291-313, 299 f.
28BGHSt 38, 320.
29Bär, FN 26, 46.
30Bär, FN 26, 46; Taroni/Aitken, FN 27, 301, mit Nachweisen.
31Taroni/Aitken, FN 27, 300.
32Taroni/Aitken, FN 27, 302 f.
33Bär, FN 26, 45.
34Nach Lindsey/Hertwig/Gigerenzer, FN 22, 163. Das Beispiel geht von einer falsch-positiv Rate von 1:100'000 aus; d.h. in einem von hunderttausend Fällen, in denen keine Übereinstimmung von Tatort- und Angeschuldigtenprofil vorliegt, wird dennoch eine Übereinstimmung festgestellt.
35Irving J. Good, When Batterer Turns Murderer, Nature 1995, 541; Gerd Gigerenzer, Ecological Intelligence: An Adaptation for Frequencies, in: Denise D. Cummins/Colin Allen (Hrsg.), The Evolution of Mind, New York 1998, 9-29, 19.
36Diese Zahl stammt von Dershowitz, ob sie empirisch stimmt, ist unklar.
37Natürlich ist das Risiko, ermordet zu werden, nicht gleichmässig verteilt. Für junge Schwarze in bestimmten Stadtteilen von Los Angeles ist es erheblich höher als für weisse Frauen reicher Sportstars. Die Annahme der gleichmässigen Verteilung ist aber hier angezeigt, weil keine spezifischeren Daten vorhanden sind und sie sich zugunsten des Verdächtigen auswirkt.
38In den USA befürwortend Irving J. Good, Probability and the Weighing of Evidence, London 1950; Michael Finkelstein/William Fairley, A Bayesian Approach to Identification Evidence, Harvard Law Review 1970, 489-517; Michael Finkelstein/William Fairley, A Comment on «Trial by Mathematics», Harvard Law Review 1971, 1801-1809; Richard Lempert, Modeling Relevance, Michigan Law Review 1977, 1021-1057; David Kaye, The Laws of Probability and the Laws of the Land, University of Chicago Law Review 1979, 34-56; Michael J. Saks/Robert F. Kidd, Human Information Processing and Adjudication: Trial by Heuristics, Law & Society Review 1980, 123-160; ablehnend Lawrence Tribe, Trial by Mathematics: Precision and Ritual in the Legal Process, Harvard Law Review 1971, 1329-1351; L. Jonathan Cohen, The Probable and the Provable, London 1977; Lea Brilmeyer/Lewis Kornhauser, Review: Quantitative Methods and Legal Decisions, University of Chicago Law Review 1978, 116-151; Charles Nesson, Reasonable Doubt and the Permissive Inference: The Value of Complexity, Harvard Law Review 1979, 1187-1215; in Deutschland befürwortend Ernst Ludwig Nell, Wahrscheinlichkeitsurteile in juristischen Entscheidungen, Diss. Bayreuth 1982, Berlin 1983, 53; Eleonora Bourmistrov-Jüttner, Subjektive Wahrscheinlichkeitstheorie und rationale Entscheidungstheorie in Anwendung auf die Rechtspraxis, Diss. München 1987, 195; Bender/Nack, FN 8, Rz. 400; Minna Gräns, Das Risiko materiell fehlerhafter Urteile, Diss. Uppsala 1995, München 2002, 160; ablehnend Reinhard Greger, Beweis und Wahrscheinlichkeit, Diss. Erlangen-Nürnberg, München 1978, 49, 55; Per Olof Ekelöf, Beweiswert, in: Wolfgang Grunsky/Rolf Stürmer/Gerhard Walter/Manfred Wolf (Hrsg.), Festschrift für Fritz Baur, Tübingen 1981, 343-363.
39Walter Habscheid, Schweizerisches Zivilprozess- und Gerichtsorganisationsrecht, 2. Aufl. Zürich 1990, 398.
40Max Guldener, Beweiswürdigung und Beweislast nach schweizerischem Zivilprozessrecht, Zürich 1955, 322.
41Die bei David A. Schum/Anne W. Martin, Formal and Empirical Research on Cascaded Inference, Law and Society Review 1982, 105-151; Nachdruck in: Reid Hastie (Hrsg.), Inside the Juror, Cambridge 1993, 136-174, 169 ff. abgedruckten Formeln geben einen Eindruck von der Komplexität.
42L. Jonathan Cohen, Are There Any A Priori Constraints on the Study of Rationality, Behavioral and Brain Sciences 1981, 359-380, 365.
43Amos Tversky/Daniel Kahneman, Evidential Impact of Base Rates, in: Kahneman/Slovic/Tversky (Hrsg.), FN 1, 153-160, 157. Nach Tversky/Kahneman wird die Basisrate der Unfälle beachtet, weil sie eine kausale Beziehung zum Einzelfall suggeriert: die Fahrer der Taxis, die häufiger in Unfälle verwickelt sind, fahren unvorsichtiger.
44Jonathan J. Koehler/Daniel N. Shaviro, Veridical Verdicts: Increasing Verdict Accuracy Through the Use of Overtly Probabilistic Evidence and Methods, Cornell Law Review 1990, 247-279, 260.
45Paul A. Meehl, Clinical versus Statistical Prediction, Minneapolis 1954, 22.
46Koehler/Shaviro, FN 44, 261.
47Bender/Nack, FN 8, Rz. 393.
48Bender/Nack, FN 8, Rz. 392. Ebenso Hans-Joachim Musielak, Das Överviktsprincip: Zum Verhältnis von richterlicher Überzeugung und Wahrscheinlichkeit, in: Alexander Lüderitz/Jochen Schröder, Festschrift für Gerhard Kegel, Frankfurt 1977, 451-471, 461.
49Schum/Martin, FN 41.
50Lempert, FN 38, 1044; Bender/Nack, FN 8, Rz. 410.
51Schum/Martin, FN 41, 165. Seitenzahl gemäss Nachdruck.
52Lempert, FN 38, 105; Bender/Nack, FN 8, Rz. 420.
53Statt vieler Alfred Bühler, Beweiswürdigung, in: Christoph Leuenberger, Der Beweis im Zivilprozess, Bern 2000, 71-92, 87.
54Desoxyribo-Nucleic-Acid, deutsch Desoxyribo-Nuklein-Säure, DNS. Die Abkürzung DNA hat sich auch im deutschsprachigen Raum durchgesetzt.
55Vertiefte Darstellungen finden sich bei Marc Hother, Die DNA-Analyse – ihre Bedeutung für die Strafverfolgung und ihr Beweiswert im Strafverfahren, Diss. Giessen 1995; Walter Bär/Adelgunde Kratzer, Die Anwendung der Gentechnologie in der Rechtsmedizin, in: Forschung für Leben Nr. 50, Mai 1998; Kilian Brodersen/Katja Anslinger/Burkhard Rolf, DNA-Analyse und Strafverfahren, München 2003.
56Botschaft zum Bundesgesetz über die Verwendung von DNA-Profilen im Strafverfahren und zur Identifizierung von unbekannten und vermissten Personen, AS 2001 29, S. 37.
57Nachweise bei William C. Thompson/Franco Taroni/Colin C.G. Aitken, How the Probability of a False Positive Affects the Value of DNA Evidence, Journal of Forensic Science 2003, 47-54, 47.
58Nachweise bei Thompson/Taroni/Aitken, FN 57, 47.
59Nachweise bei Thompson/Taroni/Aitken, FN 57, 48.
60Jonathan J. Koehler/Audrey Chia/J. Sam Lindsey, The Random Match Probability (RMP) in DNA Evidence: Irrelevant and Prejudicial?, Jurimetrics 1995, 201-219, 206 ff.
61Genau genommen bei 2:365 = 0,0055; Jonathan J. Koehler, One in Millions, Billions and Trillions: Lessons from People v. Collins (1968) for People v. Simpson (1995), Journal of Legal Education 1997, 214-223, 221.
62Thompson/Taroni/Aitken, FN 57, 51.
63Thompson/Taroni/Aitken, FN 57, 53.
64Joseph L. Peterson/R. E. Gaensslen, Developing Criteria for Model External DNA Proficiency Testing: Final Report National Institute of Justice, 2001, xi, (Website besucht am 5. Februar 2005).
65National Research Council, The Evaluation of Forensic DNA Evidence, Washington DC 1996, 87: «A wrongly accused person's best insurance against the possibility of being falsely incriminated is the opportunity to have the testing repeated».
66Thompson/Taroni/Aitken, FN 57, 48.
67Thompson/Taroni/Aitken, FN 57, 48.


Erschienen in «Justice - Justiz - Giustizia» 2006/4
ZitiervorschlagMark Schweizer, Intuition, Statistik und Beweiswürdigung, in: «Justice - Justiz - Giustizia» 2006/4