Die 42 und die Persönlichkeitsprofile

Ihr denkt jetzt sicher, das ist die Antwort auf die „ultimative Frage nach dem Leben, dem Universum und dem ganzen Rest“, aber es wird anders kommen.

Im Vertrieb – nichts gegen den Vertrieb, das Beschriebene gilt auch anderswo – erlebe ich sehr oft einen erstaunlichen Einsatz von Persönlichkeitsprofilen, die zum Beispiel auf vier Farben basieren. Ein noch recht unbekannter Gesprächspartner eines Kunden wird nach dem ersten Gespräch in eine der Kategorien eingeordnet und fortan als „blauer“ Mensch behandelt.

So kommt es vor, dass mir bei der Vorbereitung eines Termins Menschen mit solchen Stereotypen nahegebracht werden und der Termin auf dieser Grundlage konzipiert wird. In der Praxis führt das dann gerne zu Überraschungen, blöd nur, wenn an entscheidender Stelle der Griff daneben war.

Andererseits eignen sich Persönlichkeitsprofile – auch solche mit wenigen Dimensionen – sehr gut als Verallgemeinerung für strategische und taktische Zwecke, z.B. als Persona in Verkaufstrainings, in denen Ansprachen für „Rote“, „Blaue“ etc. entwickelt und geübt werden. In diesem Kontext erleichtern Stereotypen das Training, in dem ich mit wenigen Kategorien auskomme.

Persona in Verkaufstrainings und Person als Kunde müsste doch irgendwie passen? Passt aber nicht, weil:
– Eine einzelne Person hat keine feste statistische Abhängigkeit
– Aggregierte Persönlichkeitsdimensionen liefern einen aggregierten, falschen Fokus
– Dies ist eine unnötige Quelle für kognitive Verzerrungen wie Attributionsfehler

Die 42 macht es deutlich. Wenn ein Schuhhändler ein neues Herrenschuhmodell einkauft, wird er die meisten Schuhe in der Größe 42 vorrätig haben, da dies die häufigste Schuhgröße bei Männern ist. Die Strukturierung des Lagers nach Schuhgrößen ist sicherlich sehr schlau. Wenn ein Kunde den Laden betritt und vor der Theke um Rat fragt, wird ein guter Verkäufer sicher nicht sagen, gehen Sie zum Regal mit der Größe 42.

Statistiken und Gruppierungen bitte sehr sorgfältig von Individuen unterscheiden. Im Zweifelsfall hilft mir die Analogie der Schuhgröße, um beides zu unterscheiden. Wenn man nichts weiß, muss manchmal auch ein Schuh in 42 passen, zumindest ist der Filzpantoffel bei der Schlossführung nicht wählerisch.

Pantoffel

Datensammelwut und große Zahlen

Auch wenn der Anlass besorgniserregend ist, bin ich der aktuellen Diskussion um das vorausschauende Sammeln und analysieren von allen möglichen Daten dankbar. Wir und unsere politische Vertretung muss hier unbedingt schneller lernen als in den vergangenen Jahren. Die entsprechende gesellschaftliche Diskussion und dass eine demokratische Gesellschaft ihren Ansprüchen und der Vorbildfunktion gerecht werden muss, wird an anderer Stelle sicherlich kompetenter geführt.

Es gibt aber auch einen Aspekt aus der Statistik bzw. Informatik, der mir in dieser Diskussion bisher fehlt. Bei der Anwendung von Tests oder Suchmustern auf große Datenmengen spielt der Fehler eine so große Rolle, dass er von Menschen für Gewöhnlich extrem unterschätzt wird.

Ich wechsele mal kurz das Metier, um eine Einschätzung über die Größe des Fehlers zu gewinnen. Firmen und Vereine nutzen Online-Medien wie E-Mail gerne für gezielte Werbung. Zum Beispiel sollen vermögende Vereinsmitglieder zu Spenden aufgerufen werden, junge Menschen ein kostenloses Girokonto erwerben oder Käufer ein ähnliches Produkt erwerben. Die Fehlerquote hier liegt im einstelligen Prozentbereich. Zum Beispiel von 100 Mitgliedern wurden zwei nicht-vermögende Vereinsmitglieder angeschrieben, ein Angeschriebener war bereits ausgetreten und ein Mitglied ist kürzlich verstorben, macht in Summe eine Fehlerquote von 4 Prozent. Je nachdem wie komplex selektiert wurde kann die Fehlerquote auch mal in den zweistelligen Prozentbereich rutschen und das in einem Gewerbe das viel Ressourcen in seine Daten aufwendet. Verwundert Euch die Größenordnung von einigen Prozent? Ich hoffe mal nicht und denke dazu liegen Euch sicher einige lustige Erfahrungen vor.

Nun auf ins Verbrechen: Angenommen wir besitzen einen Datenbestand und einen Selektionsalgorithmus, der uns potentielle Täter liefert. Ein Verbrechen hat in einer 5.000 Einwohner Gemeinde stattgefunden und es ist sicher, dass der Algorithmus korrekt arbeitet und der Täter unter den 5.000 ist. Nun liefert unser Algorithmus 6 Verdächtige unter denen der Täter aber auch 5 Unschuldige sind. Ohne weitere Indizien läuft hier nichts.

Das ist übrigens unter anderem der Grund warum DNA-Tests nicht einfach so ohne Anfangsverdacht auf die gesamte Bevölkerung angewandt werden dürfen. Der Artikel Prävalenzfehler liefert Detail und den mathematischen Hintergrund zu diesem Aspekt. Übrigens sollten bei Fehlern auch menschliche Fehler einbezogen werden wie Tippfehler, Kopierfehler oder Vertauschungen.

Zurück zum Datendurchpflügen: Selbst wenn die Algorithmen und Datenlage einen wahnsinnig kleinen Fehler von einem Promille haben, so werden z.B. bei 82 Millionen durchleuchteten Personen zu einem Merkmal 82.000 selektiert. Um bei obigem Beispiel zu bleiben, suchen wir eine Tätergruppe von 100 Personen, die sich garantiert in Deutschland aufhält und haben als Ergebnis 82.100 Verdächtige. Da erscheinen Argumente aus der Richtung „was mache ich schon“ oder „ich habe nicht zu verbergen“ kaum noch Zielführend.

Nochmal: Solche Analysen können helfen bei einem Anfangsverdacht den Kreis der Verdächtigen einzuschränken und hier rechtsstaatlich kontrolliert angewandt auch ein sinnvolles Mittel. Ohne Verdacht angewandt, halte ich das mindestens für Geldverschwendung von den Gesellschaftlichen Folgen ganz zu schweigen.