Automatische Gesichtserkennung + Statistik = ?
Am 11.10.2018 veröffentlichte das BMI eine Presemitteilung zum Abschluß eines Projektes, welches sich mit automatisierter Gesichtserkennung befaßte. Das Projekt war eine Reaktion auf den Anschlag auf einen Berliner Weihnachsmarkt im Dezember 2016. Laut BMI: Systeme haben sich bewährt:
Die durchschnittliche Trefferrate liegt bei dem besten getesteten System unter realistischen Testbedingungen bei über 80%. Das heißt: In über 80% der Fälle wurden die Testpersonen durch die Systeme zuverlässig erkannt. Weitere Optimierungen und höhere Trefferraten sind technisch möglich.
Die Falschtrefferraten (z.B. System erkennt Person A, es handelt sich jedoch um Person B) liegen durchschnittlich bei unter 0,1%. Das bedeutet, dass bei 1000 Abgleichen auf einem Bahnhof lediglich ein einziger Abgleich durch das System fehlerhaft erkannt wird. Dieser Wert lässt sich aber durch Kombination verschiedener Systeme technisch auf bis zu 0,00018% und damit auf ein verschwindend geringes Maß reduzieren. Die Systeme haben sich damit für einen Einsatz im Polizeialltag bewährt.
Klingt toll? — Klingt toll. Auch die Politik ist begeistert. 80% suggeriert immerhin, daß 4 von 5 erkannt werden.
Aber gucken wir doch mal genauer hin:
Die Falschtrefferrate (false positive) liegt bei "nur" 0,1%. Das bedeutet: Von den rund zwölf Mio. täglichen ÖPNV-Benutzern in Deutschland werden "nur" 12.000 fälschlich als Gefährder eingestuft. Täglich! Holla!
Nehmen wir an, daß etwa 100 von den rund 600 bekannten Gefährdern täglich mit dem ÖPNV unterwegs sind. Von diesen 100 werden dann 80 positiv erkannt.
Damit hätten wir 80 richtig-positive gegen 12.000 falsch-positive Treffer. Das sind runde 0,7% oder umgekehrt: Die Wahrscheinlichkeit für einen Fehlalarm liegt bei über 99%. Da das System nicht zwischen richtig-positiv und falsch-positiv unterscheiden kann (dann gäbe es ja das Problem überhaupt nicht), müßten 12.080 Personen pro Tag von Beamten "zu Fuß" überprüft werden. Na, immer noch toll?
Ok: Die Pressemitteilung verspricht eine mögliche Absenkung der Falschtrefferrate auf beeindruckende 0,00018%. Das würde das Gesamtergebnis natürlich drastisch verbessern. Aber daraus ergibt sich auch eine ganz simple Frage: Wenn das möglich sein sollte, warum wurde es nicht getan? — Im Test wurde diese niedrige Rate jedenfalls nicht erreicht. Denn wenn, dann hätte man das sehr stolz verkündet.
Im Abschlußbericht steht übrigens (auf Seite 7):
Im Ergebnis lieferten die Gesichtserkennungssysteme im Teilprojekt 1 "Biometrische Gesichtserkennung" in der 1. Testphase im Einzelnen eine durchschnittliche Trefferrate von 68,5%; die maximale Trefferrate betrug bis zu 86,3%. Die Falschakzeptanzrate der Einzelsysteme lag zwischen 0,12% und 0,25%. Als Gesamtsystem erzielten die Gesichtserkennungssysteme eine Trefferrate von mindestens 76,7% und maximal 94,4%; die Falschakzeptanzrate lag dabei bei 0,67%.
In der 2. Testphase lieferten die Gesichtserkennungssysteme im Einzelnen eine durchschnittliche Trefferrate von 82,8% in Korrelation mit einer Falschakzeptanzrate von 0,07 %. Das performanteste Einzelsystem lieferte dabei eine maximale Trefferrate von 91,7%. Die durchschnittliche Trefferrate des Gesamtsystems lag in der Phase 2 bei 91,2 % (maximaler Wert: 98,1%). Die Falschtrefferrate lag bei 0,34%.
Das heißt, im realen Test lagen die Falschtrefferraten deutlich über den 0,1% aus der Pressemitteilung. Das ergibt sich auch aus den enthaltenen Tabellen und macht das Gesamtergebnis noch fragwürdiger. Zur Frage, wie man die 0,00018% erreichen könnte (man beachte: könnte) steht auf Seite 35:
Im Falle einer (technischen) Kombination der zwei besten Gesichtserkennungssysteme mittels einer UND-Verknüpfung könnte die durchschnittliche Falschtrefferrate auf den fast nicht mehr messbaren Wert von 0,00018% reduziert werden. Die durchschnittliche Trefferrate dieser Kombination betrüge immer noch sehr gute 68,1%.
Das dürfte reines Wunschdenken sein. Tatsächlich bewegt sich ein solches System immer in einem Gesamtraum, der in 4 Einzelräume unterteilt ist: richtig-positiv, falsch-positiv, richtig-negativ und falsch-negativ. Eine Verbesserung in einem Raum führt zwangsläufig zu einer Verschlechterung in mindestens einem anderen Raum. Wie eine Quecksilber-Pfütze, die immer in allen vier Räumen ist aber ihren Schwerpunkt mal von einem in den anderen Raum verlagert. Zwei UND-verknüpfte Systeme werden vermutlich überhaupt nichts mehr erkennen — oder nur noch fehlerhafte Ergebnisse produzieren.
Fazit
Die Zahl der richtig-positiven Treffer mag beeindruckend hoch sein, sie hat aber nicht viel zu sagen. Bei anlaßlosen Massentests zählen immer die falsch-positiven Treffer. Denn diese können, auch wenn sie im ersten Moment sehr niedrig wirken, das Gesamtergebnis völlig entwerten und so für einen hohen Kollateralschaden sorgen.
Die gesamte Problematik war auch (aber nicht nur) während der Corona-Epidemie sehr präsent. Bei der Beurteilung von medizinischen Tests geht es immer um die beiden Parameter Sensitivität und Spezifität. Die Sensitivität misst dabei den Anteil der tatsächlichen Positiven, die korrekt als solche erkannt werden (z.B. den Prozentsatz der Kranken, die korrekt als solche erkannt werden). Die Spezifität misst den Anteil der tatsächlichen Negativen, die korrekt als solche identifiziert werden (z.B. den Anteil der gesunden Menschen, die korrekt als nicht krank erkannt werden).
Ein Test mit hoher Sensitivität aber niedriger Spezifität produziert immer eine hohe Falschtrefferrate währenddessen ein Test mit niedriger Sensivität aber hoher Spezifität immer (zu) niedrige Richtigtrefferraten liefert. Das Ergebnis ist nie absolut sondern immer nur eine Verhältniszahl, ein Kompromiß.
All diese Dinge wurden während der Corona-Epidemie sehr breit diskutiert — und es wurde auch sehr viel Schindluder damit getrieben.
Dennoch sind alle Arten von anlaßlosen Massentests von diesem statistischen Effekt betroffen.
Comments