Von der Zahlenblindheit und der totalen Überwachung

Wenn Moral den Taschenrechner frisst

Ich habe die Diskussion um die sogenannte Chatkontrolle von Anfang an mit einem sehr nüchternen Reflex verfolgt: bevor ich moralisch reagiere, rechne ich. Was dort politisch gefordert wird, die anlasslose Durchleuchtung sämtlicher digitaler Kommunikation in der EU auf mögliche KiPo-Inhalte, ist nicht einfach ein weiterer Eingriff in Grundrechte. Es ist ein Grossversuch gegen die Arithmetik.

Seit Jahren liegen die Grundzüge der Idee auf dem Tisch: Alle SMS, E-Mails, WhatsApp-Nachrichten, Threema, Signal, Facebook Messenger, praktisch alles, was sich textlich und bildlich übertragen lässt, soll durch Algorithmen gescannt werden. Ziel: mutmassliche Darstellungen sexuellen Kindesmissbrauchs erkennen und melden.

Wer das kritisiert, landet reflexartig in der Ecke „gegen Kinderschutz“. Das ist bequem für jene, die diese Systeme durchsetzen wollen, und brandgefährlich für eine Gesellschaft, die sich noch als rational verstehen möchte. Denn sobald man sich die Mühe macht, das Thema konsequent durchzurechnen, landet man nicht bei „ein paar Kollateralschäden“, sondern bei einem technisch wie gesellschaftlich unbeherrschbaren Szenario.

Ich habe diese Rechnungen vor Jahren bereits angestellt. Heute, da die EU-Kommission den x-ten Anlauf nimmt, eine solche Infrastruktur durchzudrücken, ist der Zeitpunkt gekommen, die Zahlen in Ruhe zu entfalten. Nicht mit Zynismus, sondern mit der Lautstärke nüchterner Statistik.

Sensitivität, Spezifität und die Illusion der Präzision

Um zu verstehen, warum das ganze Projekt schon auf der Ebene der Zahlen scheitert, müssen drei Begriffe sitzen:

  • Sensitivität: Wie viel Prozent der tatsächlich strafbaren Inhalte erkennt das System?
  • Spezifität: Wie viel Prozent der völlig harmlosen Inhalte lässt es in Ruhe, ohne Alarm zu schlagen?
  • Prävalenz: Wie häufig kommt das Gesuchte in der Gesamtmenge überhaupt vor?

In der politisch-technischen Kommunikation wird fast immer nur mit den ersten beiden Werten gespielt. „Unser System erkennt 90 % der Missbrauchsbilder!“ klingt beeindruckend. „Unsere Falsch-Alarm-Rate liegt nur bei 0,1 %!“ klingt nach einem vertretbaren Preis.

Der entscheidende Punkt ist jedoch: Diese Prozentsätze sagen praktisch nichts aus, wenn man nicht gleichzeitig die Prävalenz berücksichtigt. Und genau an dieser Stelle beginnt die kollektive Zahlenblindheit.

KiPo-Inhalte sind, zum Glück, extrem selten im Vergleich zu allen Nachrichten, die täglich verschickt werden. Sie sind nicht „ein bisschen selten“, sondern um Grössenordnungen seltener als alles andere. In einem solchen Umfeld ist eine Falsch-Alarm-Rate von 0,1 % kein „vernachlässigbarer Restfehler“, sondern der Motor für eine Lawine.

Der Basisratenfehler: Wenn 0,1 % zur Katastrophe werden

Der Basisratenfehler, in der Statistik und der Psychologie gut bekannt, beschreibt das Phänomen, dass Menschen die Grundhäufigkeit eines Ereignisses massiv unterschätzen, wenn sie einen „guten“ Test präsentiert bekommen.

Ein Gedankenexperiment:

Ich unterstelle grosszügig, dass 1 von 1 000 000 Nachrichten tatsächlich strafbare KiPo-Inhalte enthält. Das ist als Annahme eher hoch, aber für die Argumentation bequem.

Bei 10 Milliarden Nachrichten pro Tag in der EU wären das:

  • 10 000 Nachrichten mit tatsächlichem KiPo-Material
  • 9 999 990 000 vollständig harmlose Nachrichten

Nehmen wir nun einen sehr guten Detektor an:

  • Sensitivität: 90 % → er erkennt 9 000 der 10 000 strafbaren Nachrichten
  • Spezifität: 99,9 % → er schlägt bei nur 0,1 % der harmlosen Nachrichten fälschlich Alarm

Dann sieht die Bilanz so aus:

  • 9 000 echte Treffer (True Positives)
  • 10 000 000 falsche Verdächtigungen (False Positives)

Das Verhältnis ist verheerend: Auf jeden echten Treffer kommen über 1 100 unschuldige Menschen, deren Nachrichten als „verdächtig“ markiert werden. In der Gesamtmenge der Alarme sind gerade einmal knapp 0,1 % wirklich strafbar.

Mit anderen Worten: In der Praxis wäre fast jeder Alarm falsch.

Die Zahlen ändern sich leicht, wenn man an den Parametern dreht, aber die Logik bricht nie: Bei extrem seltener Prävalenz und nicht perfekten Tests dominiert der Falsch-Alarm das Geschehen. Genau das ist der Kern der Zahlenblindheit: Man starrt auf 90 % Sensitivität und 99,9 % Spezifität und übersieht, dass 99,9 % von einer Milliarde immer noch eine Katastrophe ist.

Der Bahnhof Südkreuz: Lehrstück für statistische Realität

Wir haben dieses Experiment bereits im Kleinen durchgespielt: am Berliner Bahnhof Südkreuz, beim Modellversuch zur automatischen Gesichtserkennung potenzieller Straftäter.

Die offizielle Kommunikation feierte das System, weil es eine „Trefferrate von über 80 %“ und eine „Falsch-Alarm-Rate unter 0,1 %“ erreicht habe. Das klingt hervorragend, bis man die Grundzahlen einsetzt:

  • Millionen Reisende pro Tag
  • eine verschwindend kleine Zahl tatsächlich gesuchter Personen
  • 0,1 % Fehlalarme auf die Masse aller übrigen Gesichter

In der nüchternen Auswertung ergab sich, stark vereinfacht:

  • ein paar Dutzend echte Treffer
  • tausende Falschalarme pro Tag

Der überwältigende Teil der Alarme waren also Fehlalarme. In Prozentwerten sah das System beeindruckend aus, im Alltag hätte es Polizisten und Personal mit einem unbeherrschbaren Strom an „Verdächtigen“ überschwemmt, die allermeisten unschuldig.

Südkreuz war ein Testfeld mit engen Rahmenbedingungen: eine klar definierte Umgebung, hochwertige Kameras, gut kontrollierte Referenzbilder. Und selbst dort führte eine vermeintlich gute Falsch-Alarm-Rate zu einem statistischen Desaster.

Wer glaubt, dass ein System, das weltweit Texte, Bilder, Videos und Audiodaten analysieren soll, besser abschneiden wird als eine streng kontrollierte Gesichtserkennung am Bahnhof, verkennt die Realität der Mustererkennung.

Vom Bahnhof zum Kontinent: Skalierung auf die Chatkontrolle

Skalieren wir die Logik auf die EU-weite Chatkontrolle.

Die Grössenordnung:

  • Konservativ gerechnet liegen wir bei mindestens 10 Milliarden Nachrichten pro Tag in der EU (Messenger, SMS, E-Mail).
  • Realistischerweise sind es eher 30 bis 50 Milliarden Nachrichten.

Ich bleibe zunächst bei 10 Milliarden, um nicht mit den grössten Zahlen zu erschlagen. Die Prävalenzannahme bleibt gleich: 1 von 1 000 000 Nachrichten enthält tatsächliche KiPo-Inhalte.

Damit haben wir pro Tag:

  • 10 000 strafbare Nachrichten
  • 9 999 990 000 harmlose Nachrichten

Als nächstes unterstelle ich verschiedene Qualitätsniveaus für das Erkennungssystem.

Szenario 1: Optimistisch bis an die Grenze der Glaubwürdigkeit

  • Sensitivität: 95 %
  • Spezifität: 99,999 % (Fehlalarmrate 0,001 %)

Ergebnis:

  • 9 500 echte Treffer
  • 500 verpasste Fälle
  • 100 000 falsche Verdachtsmeldungen pro Tag

Schon im bestmöglichen Vorstellungsraum reden wir von hunderttausend unschuldigen Menschen, deren Kommunikation täglich als „KiPo-verdächtig“ bei Behörden aufschlägt.

Szenario 2: „Realistisch auf Südkreuz-Niveau“

  • Sensitivität: 90 %
  • Spezifität: 99,9 % (Fehlalarmrate 0,1 %)

Ergebnis:

  • 9 000 echte Treffer
  • 1 000 verpasste Fälle
  • 10 000 000 falsche Verdachtsmeldungen pro Tag

Das ist kein Tippfehler: zehn Millionen. Die Systemqualität, die in der öffentlichen Kommunikation bei Südkreuz als Erfolg gefeiert wurde, produziert in der EU-weiten Chatkontrolle jeden Tag einen zweistelligen Millionenbetrag an Falschbeschuldigungen.

Szenario 3: Noch immer „gut“, aber nicht mehr Traumwelt

  • Sensitivität: 80 %
  • Spezifität: 99 % (Fehlalarmrate 1 %)

Ergebnis:

  • 8 000 echte Treffer
  • 2 000 verpasste Fälle
  • 100 000 000 falsche Verdachtsmeldungen pro Tag

Hundert Millionen False Positives. Täglich.

Spätestens an dieser Stelle sollte jede technische Illusion kollabieren. Wer bei solchen Zahlen noch behauptet, ein derartiges System sei „beherrschbar“, hat die Mathematik aus dem Raum geschickt.

Die „Millionenfalle“: Warum das System organisatorisch zerbricht

Selbst wenn man alle Grundrechtsfragen für einen Moment ausblendet und nur technisch-organisatorisch denkt, ist das System untragbar.

Jeder positive Treffer, gleich ob echt oder falsch, muss:

  • gesichtet,
  • bewertet,
  • kontextualisiert,
  • dokumentiert
  • und in einem rechtsstaatlichen Umfeld einer klaren Entscheidung zugeführt werden.

Wie viele Fälle kann ein Mensch pro Tag verantwortungsvoll prüfen? Wenn ich sehr optimistisch bin, vielleicht 100. Bei 10 Millionen False Positives pro Tag bräuchte ich also 100 000 Prüfer, die nichts anderes tun, als den ganzen Tag eine endlose Liste angeblicher KiPo-Fälle durchzusehen.

Das ist völlig unrealistisch. Also wird man zwangsläufig:

  • automatisierte Vorfilterstufen einziehen,
  • „Scores“ vergeben,
  • nur die „höchstverdächtigen“ Fälle wirklich anschauen,
  • den Rest in Datenbanken stapeln oder nie ansehen.

Das Ergebnis ist eine toxische Mischung:

  • Die Anzahl der False Positives, die tatsächlich zu Ermittlungen führen, bleibt hoch.
  • Die Zahl der False Negatives, echte Fälle, die nie jemand sieht, steigt gleichzeitig, weil man den Schwellenwert hochziehen muss, um nicht völlig unterzugehen.

Das System erfüllt also seine eigenen Ziele nicht und produziert gleichzeitig massenhaft Schaden bei Unschuldigen. Es ist nicht übertrieben, von einem technischen und organisatorischen Kollaps zu sprechen. Der Zusammenbruch findet nicht im Sinne eines plötzlichen Blackouts statt, sondern als permanenter Zustand struktureller Überforderung.

Der Preis der Falschbeschuldigung: Warum KiPo kein „normales“ Fehlerfeld ist

In vielen technischen Systemen sind False Positives lästig, aber korrigierbar.

  • Ein Spamfilter, der eine legitime Mail frisst, ist ärgerlich, aber meist reversibel.
  • Ein Fraud-Detektor, der eine Kartenzahlung blockiert, erzeugt Aufwand, aber keine vernichtende Spur.

Bei Vorwürfen sexuellen Kindesmissbrauchs sieht die Lage fundamental anders aus.

Schon der Verdacht:

  • zerstört berufliche Perspektiven,
  • beschädigt familiäre Beziehungen,
  • ruiniert soziale Netzwerke,
  • prägt das Bild, das die Umwelt von einem Menschen hat, dauerhaft.

Selbst wenn sich später herausstellt, dass der Verdacht vollkommen unbegründet war, bleibt immer ein Restzweifel. „Wo Rauch ist, ist Feuer“, dieser Satz entfaltet gerade bei sexualisierten Vorwürfen eine kaum mehr auflösbare Wirkung.

Wenn ein System in grossem Stil Menschen mit KiPo-Verdachtsmeldungen überzieht, ist das kein technisches Problem mehr, sondern eine Frage der massenhaften, irreversiblen Vernichtung von Existenzen. In einem solchen Kontext ist es ethisch nicht vertretbar, mit „ein paar False Positives“ zu planen.

Wenn man diese Besonderheit ernst nimmt, bleibt nur eine logische Konsequenz: Ein akzeptables System müsste False Positives praktisch auf Null drücken. Doch genau das ist bei extrem seltenem Zielereignis mathematisch nicht mit hoher Sensitivität vereinbar.

Warum „Null False Positives“ eine Illusion ist

Es gibt keinen magischen Punkt, an dem ein System bei Milliarden von Nachrichten pro Tag:

  • nahezu alle realen KiPo-Fälle erkennt und
  • gleichzeitig kaum je einen Unschuldigen falsch markiert.

Jede Verbesserung der Sensitivität erkauft man sich mit zusätzlichen False Positives. Jede schärfere Reduktion der False Positives führt dazu, dass echte Fälle durchs Raster fallen.

In einem medizinischen Screening, bei dem eine sehr häufige Krankheit untersucht wird, kann man diesen Trade-off vernünftig austarieren. Bei extrem seltenen Ereignissen, und KiPo in der alltäglichen Kommunikation gehört genau in diese Kategorie, kippt das System jedoch:

  • Entweder ich stelle die Schwelle so tief, dass ich fast alles Signifikante erwische, und ertrinke in Falschbeschuldigungen,
  • oder ich stelle die Schwelle so hoch, dass die Zahl der Falschbeschuldigungen klein bleibt, und ich verpasse zwangsläufig einen grossen Teil der realen Fälle.

Politisch wird gerne suggeriert, man könne beides haben: „Wir garantieren hohe Erkennungsraten und vernachlässigbare Fehlalarme.“ Das ist objektiv falsch. Wer das behauptet, hat entweder die Statistik nicht verstanden oder verlässt sich darauf, dass die Öffentlichkeit sie nicht versteht.

Rechtlicher und institutioneller Zusammenbruch

Neben der technischen Überforderung entsteht ein zweiter, ebenso gravierender Kollaps: der rechtliche.

In einem Rechtsstaat gilt der Grundsatz:

  • Es gibt einen Kernbereich privater Lebensgestaltung, den der Staat respektieren muss.
  • Ermittlungen dürfen in diesen Bereich nur bei hinreichendem Anlass und unter rechtsstaatlicher Kontrolle eindringen.

Die Chatkontrolle dreht dieses Prinzip um. Sie implementiert ein System, das standardmässig:

  • jede Nachricht,
  • jeden Bürger,
  • jeden Tag

als potenzielles Untersuchungsobjekt behandelt. Der Anlass wird nicht individuell geprüft, sondern durch eine abstrakte Risikodeklaration ersetzt; die Schwelle von Verdacht zu Routine verschwindet.

Dazu kommt: Ermittlungsbehörden, Staatsanwaltschaften und Gerichte sind bereits heute vielerorts überlastet. Die Vorstellung, man könne ihnen millionenfache zusätzliche Verdachtsfälle täglich auf den Tisch legen, ohne dass das gesamte System an Rechtsverzögerung, Fehlern, Verzweiflung und Willkür zerfällt, ist illusorisch.

Die reale Reaktion wäre absehbar:

  • Massiver Ausbau automatisierter Ermittlungsprozesse,
  • stärkere Standardisierung,
  • noch weniger individuelle Prüfung,
  • wachsender Druck, „auszusortieren“, ohne genau hinzusehen.

Das alles steht in diametralem Gegensatz zu dem, was Grundrechte, Verfassungen und internationale Menschenrechtsinstrumente eigentlich gewährleisten sollen. Zahlenblindheit ist hier nicht nur ein Rechenfehler, sondern eine Einladung zum systematischen Rechtsbruch.

Zahlenblindheit als Systemfehler

Die Frage, die sich mir aufdrängt, lautet: Warum setzen sich solche Projekte trotzdem immer wieder durch, zumindest bis an die Schwelle legislativer Umsetzung?

Meine Antwort ist zweigeteilt.

Erstens: Statistische Kompetenz ist in Politik, Verwaltung und Medien erstaunlich schwach ausgeprägt. Begriffe wie Sensitivität, Spezifität, Prävalenz und Basisratenfehler sind kein Allgemeingut. Es ist für viele Entscheidungsträger schwer, intuitiv zu erfassen, was 0,1 % Fehlerrate bei Milliarden Datensätzen bedeutet.

Zweitens (und schwerer wiegend): Es gibt einen strukturellen Anreiz, die Zahlen nicht zu ernst zu nehmen.

  • Ein „harter“ Aufschlag gegen KiPo verkauft sich politisch gut.
  • Wer dagegenhält und mit Millionen Falschbeschuldigungen argumentiert, lässt sich leicht moralisch diskreditieren.
  • Institutionen, die Überwachungskapazitäten aufbauen, gewinnen Macht, Budgets und Einfluss.

Zahlenblindheit ist damit nicht nur ein Mangel an Wissen, sondern ein Machtinstrument. Die Fähigkeit (und Bereitschaft), statistische Realitäten zu verdrängen, wird zum Treibstoff für eine Politik, die tief in Freiheitsrechte eingreift und gleichzeitig behauptet, nur „mehr Sicherheit“ schaffen zu wollen.

Was eine rational handelnde Gesellschaft tun müsste

Wenn ich konsequent von den Zahlen ausgehe, bleibt von der Chatkontrolle als Konzept nichts übrig, was technisch, rechtlich und ethisch verantwortbar wäre.

Eine rational handelnde Gesellschaft müsste:

  1. Die Idee flächendeckender Inhaltskontrolle privater Kommunikation verwerfen.
    Nicht, weil KiPo kein Problem wäre, sondern weil das Mittel statistisch unbrauchbar und grundrechtlich verheerend ist.
  2. Auf gezielte Instrumente setzen, die dort ansetzen, wo tatsächliche Anhaltspunkte für Missbrauch vorliegen:
    • klassische Ermittlungsarbeit,
    • gezielte digitale Forensik im Rahmen richterlicher Anordnungen,
    • internationale Kooperation bei bekannten Netzwerken,
    • Fokus auf Täterstrukturen statt anlasslose Massenscans.
  3. Starke Ende-zu-Ende-Verschlüsselung schützen statt sie über Client-Side-Scanning zu unterlaufen.
    Wer Kommunikationssicherheit schwächt, schadet nicht nur Missbrauchstätern, sondern allen: Journalisten, Ärzten, Anwälten, Unternehmen, Oppositionellen, jeder privaten Person.
  4. Statistische Kompetenz ausdrücklich zur Grundlage von Gesetzgebung machen.
    Bei Grossprojekten mit massenhafter Datenverarbeitung sollte es verpflichtend sein, dass unabhängige Experten die Fehlerraten, Basisraten und zu erwartenden False-Positive-/False-Negative-Zahlen offenlegen, und zwar in einer Form, die auch für Nicht-Mathematiker nachvollziehbar ist.

Der entscheidende Punkt ist: Ermittlungen gegen Kindesmissbrauch verlieren jeden legitimen Boden, wenn diese sich auf Mittel stützen, die statistisch überwiegend Unschuldige schädigen und den Rechtsstaat unterspülen.

Epilog

Wenn ich von „Zahlenblindheit“ im Hadmut’schen Sinne spreche, meine ich nicht eine harmlose Schwäche im Kopfrechnen, sondern eine gefährliche Kultur: die Weigerung, sich mit den Konsequenzen der eigenen politischen Forderungen auf der Ebene der nackten Zahlen auseinanderzusetzen.

Die Chatkontrolle ist dafür ein exemplarischer Fall. Wer behauptet, man könne Milliarden von Nachrichten am Tag mit hoher Sensitivität und hoher Spezifität scannen und dabei nur einige wenige Falschalarme in Kauf nehmen, erzählt eine mathematische Fiktion. Diese Fiktion wird politisch mit moralischer Empörung überklebt, damit niemand auf die Idee kommt, den Taschenrechner zu zücken.

Die Rechnung jedoch, sie fällt vernichtend aus. Nicht, weil ich gegen die Bekämpfung von Kindesmissbrauch wäre, sondern weil ich weiss, dass eine Gesellschaft, die bereit ist, täglich Millionen Unschuldiger unter den Verdacht eines für die Opfer schrecklichen Delikts zu stellen, um eine vergleichsweise kleine Zahl realer Täter zu finden, ihre moralische und rechtliche Orientierung verloren hat.

Zahlenblindheit ist in diesem Kontext nicht neutral. Sie ist ein Angriff auf Vernunft, auf Rechtsstaat und auf die Würde der Bürger, die von ihren Institutionen erwarten dürfen, dass diese nicht systematisch ihre Existenzen aufs Spiel setzen, um politisch gut klingende Projekte durchzusetzen.

Categories: Allgemein, Deutschland, Digitalisierung, EU, EU-Kommission, Gesellschaft, IT-Security, Kryptographie, Zensur