Auch wenn der Anlass besorgniserregend ist, bin ich der aktuellen Diskussion um das vorausschauende Sammeln und analysieren von allen möglichen Daten dankbar. Wir und unsere politische Vertretung muss hier unbedingt schneller lernen als in den vergangenen Jahren. Die entsprechende gesellschaftliche Diskussion und dass eine demokratische Gesellschaft ihren Ansprüchen und der Vorbildfunktion gerecht werden muss, wird an anderer Stelle sicherlich kompetenter geführt.
Es gibt aber auch einen Aspekt aus der Statistik bzw. Informatik, der mir in dieser Diskussion bisher fehlt. Bei der Anwendung von Tests oder Suchmustern auf große Datenmengen spielt der Fehler eine so große Rolle, dass er von Menschen für Gewöhnlich extrem unterschätzt wird.
Ich wechsele mal kurz das Metier, um eine Einschätzung über die Größe des Fehlers zu gewinnen. Firmen und Vereine nutzen Online-Medien wie E-Mail gerne für gezielte Werbung. Zum Beispiel sollen vermögende Vereinsmitglieder zu Spenden aufgerufen werden, junge Menschen ein kostenloses Girokonto erwerben oder Käufer ein ähnliches Produkt erwerben. Die Fehlerquote hier liegt im einstelligen Prozentbereich. Zum Beispiel von 100 Mitgliedern wurden zwei nicht-vermögende Vereinsmitglieder angeschrieben, ein Angeschriebener war bereits ausgetreten und ein Mitglied ist kürzlich verstorben, macht in Summe eine Fehlerquote von 4 Prozent. Je nachdem wie komplex selektiert wurde kann die Fehlerquote auch mal in den zweistelligen Prozentbereich rutschen und das in einem Gewerbe das viel Ressourcen in seine Daten aufwendet. Verwundert Euch die Größenordnung von einigen Prozent? Ich hoffe mal nicht und denke dazu liegen Euch sicher einige lustige Erfahrungen vor.
Nun auf ins Verbrechen: Angenommen wir besitzen einen Datenbestand und einen Selektionsalgorithmus, der uns potentielle Täter liefert. Ein Verbrechen hat in einer 5.000 Einwohner Gemeinde stattgefunden und es ist sicher, dass der Algorithmus korrekt arbeitet und der Täter unter den 5.000 ist. Nun liefert unser Algorithmus 6 Verdächtige unter denen der Täter aber auch 5 Unschuldige sind. Ohne weitere Indizien läuft hier nichts.
Das ist übrigens unter anderem der Grund warum DNA-Tests nicht einfach so ohne Anfangsverdacht auf die gesamte Bevölkerung angewandt werden dürfen. Der Artikel Prävalenzfehler liefert Detail und den mathematischen Hintergrund zu diesem Aspekt. Übrigens sollten bei Fehlern auch menschliche Fehler einbezogen werden wie Tippfehler, Kopierfehler oder Vertauschungen.
Zurück zum Datendurchpflügen: Selbst wenn die Algorithmen und Datenlage einen wahnsinnig kleinen Fehler von einem Promille haben, so werden z.B. bei 82 Millionen durchleuchteten Personen zu einem Merkmal 82.000 selektiert. Um bei obigem Beispiel zu bleiben, suchen wir eine Tätergruppe von 100 Personen, die sich garantiert in Deutschland aufhält und haben als Ergebnis 82.100 Verdächtige. Da erscheinen Argumente aus der Richtung „was mache ich schon“ oder „ich habe nicht zu verbergen“ kaum noch Zielführend.
Nochmal: Solche Analysen können helfen bei einem Anfangsverdacht den Kreis der Verdächtigen einzuschränken und hier rechtsstaatlich kontrolliert angewandt auch ein sinnvolles Mittel. Ohne Verdacht angewandt, halte ich das mindestens für Geldverschwendung von den Gesellschaftlichen Folgen ganz zu schweigen.