Gedanken zum Datensammeln

Gelegentlich stolpert man über Studien, Untersuchungen, Umfragen oder “Statistiken”. Vielleicht sucht man sie auch - ich zumindest immer mal wieder. Und manchmal ärgere ich mich dabei, nämlich dann, wenn wichtige Informationen fehlen.

Glaube nie einer Statistik, die du nicht selbst gefälscht hast, heißt ein “schlauer Spruch”. Da ist was Wahres dran, wenn ich auch glaube, diese “Fälschung” passiert vielfach wider besseren Wissens.

Nein, keine mathematische Abhandlung. Einfach ein paar Überlegungen, die man sich vielleicht durch den Kopf gehen lassen sollte, wenn man mal wieder über Zahlen stolpert, die Fragen offen lassen.

Die Sache mit der Grundgesamtheit

Wann ist so eine Studie überhaupt repräsentativ? Allgemein gilt: je mehr Daten zur Verfügung stehen, desto besser. Ganz klar. Wer insgesamt 25 Leute befragt oder 25 Sachverhalte untersucht, wird sich schwer tun, zu einem aussagekräftigen Ergebnis zu kommen.

Das ist das eine. Das andere ist, dass die Ergebnisse einer Untersuchung natürlich grundsätzlich erstmal nur Aussagen treffen über die untersuchten Eigenschaften der in die Studie oder Untersuchung eingeschlossenen Teilnehmer bzw. die Teilnehmer eine Umfrage. Um vom Speziellen ins Allgemeine zu schließen, sind schon mehr Vorüberlegungen nötig, - insbesondere was die Art und den Umfang der Stichprobe betrifft.

Die Nebenbedingung

Vor einiger Zeit gab es eine Schriftenstudie - deren Überschrift ich bis heute nicht verstehe “die Verbreitung der Schriften im Web” oder so ähnlich. Schon die Überschrift geht nämlich am Sachverhalt vorbei, aber das ist eine andere Geschichte. Mir hat hier einige Information zum “Studiendesign” gefehlt. Wahrscheinlich nur mir… jeder andere weiß jetzt haargenau, wie verbreitet die Arial oder die Helvetica oder eine Calibiri ist, während ich noch skeptisch bin, was ich mit diesen Infos anfangen soll.

Wie auch immer: wozu gibt es Kreuztabellen? Dafür, um nicht nur sagen zu können, dass soundsoviel Prozent dieses und jenes bevorzugen sondern feiner ins Detail gehen zu können. Um bei der Schrift zu bleiben: eine betriebssystem-spezifische Schrift wird erst dann interessant, wenn man sich die Frage stellt, wie viel Prozent der “Besitzer” diese Schrift auch dann haben, wenn sie nicht auf dem Betriebssystem arbeiten, mit dem diese Schrift standardmäßig ausgeliefert wird.

Leider wird diese Feinunterteilung leicht vergessen. Man jagt alle Fragestellungen mal schnell durch ein Excel, hinten raus purzeln nette Prozentzahlen und ein paar vermeintlich aussagekräftige Diagramme und fertig. Schade!

Ach ja und genau dann, wenn die Fragestellung darin abzielt, ob eventuell “Nebenbedingungen” das Ergebnis verfälscht oder geschönt haben (beispielsweise durch evidente Aussagen, die sich aber hinter den Kulissen abspielen und nicht sofort erkennbar sind) - sind natürlich solche Geschichten wie Kreuztabellen ebenso wichtig.

Sammelwut

Das Schlimme oder eher Gefährliche an der Sache mit den Daten ist aber die Sammlerwut. Sammeln ist immer gut und Erfassen auch. Ohne Plan aber, wo es hinführen soll, sind Zahlen nur Zahlen und damit höchstens beschreibend zu gebrauchen. Deskriptive Statistik. Eine Interpretation lassen sie nicht zu. (Genau da wurmt mich dann wahrscheinlich, wenn nur ein Teil der deskriptiven Statistik verfügbar ist, während der Rest als nicht weiter relevant unter den Tisch gekehrt wird).

Und dann passiert (wahrscheinlich eher relevant im wissenschaftlichen Kontext als im realen Leben) Summa Summarum genau das, was zu diesem seltsamen Spruch führt: Man will Ergebnisse der Art “statistisch signifikant mit p = 0.05″  oder man will schlicht und einfach nur interpretieren - und fängt ziellos an, Ergebnisse miteinander in Relation setzen zu wollen. Oder aber es passiert, dass aufgrund mangelnder Zusatzinformation schnell Schlüsse gezogen werden, die sich bei feinerer Betrachtung als haltlos erweisen würden - jedoch für Meinungsmache, Vorurteil oder schlicht um ein Ergebnis vorweisen zu können, mehr als vorteilhaft sind. Übrigens ist “kein Ergebnis” vielleicht nicht befriedigend, durchaus aber auch ein Ergebnis.

Darstellungswut

Graphiken sind etwas tolles. Sie machen Zahlen und Ergebnisse fassbarer. Und.. man kann damit Sachverhalte wunderbar schönen. Durch die Wahl eines “passenden Koordinatensystems”, sprich einem Ausschnitt, der die Zahlen “deutlicher” hervortreten lässt, durch die Wahl prozentualer Werte statt der Anzahl, um beispielsweise darüber hinwegzutäuschen, dass eine  Menge im Vergleich zu einer zweiten Menge verschwindend gering ist. Dazu kommen Darstellungformen, die einfach schwer verständlich sind. Boxplots beispielsweise.

Und dazu kommt, dass sich bestimmte Datentypen und bestimmte Darstellungsformen einfach ausschließen - weil sie keinen Sinn machen und nie das aussagen würden, was eigentlich gesagt werden soll.

Interpretationsversuche

Interpretationsversuche sind, gerade als Ergebnis vorausgegangener “Sammlerwut”, schwierig. Es gibt jene “Nebenbedingungen” und bekommt man nur ein paar Zahlen und Tabellen (und dafür andere Zahlen und Tabellen nicht), wird es praktisch schon unmöglich. Vor allem aber trügerisch.

Daten und deskriptive Statistiken. Für mich ohne nähere Zusatzinformation, sprich den Bezug, oftmals uninteressant. Mich wundert nur, dass manch einer sich da kaum Gedanken zu machen scheint…

Fragen sind immer interessant, beispielsweise nach der Steigerung von Blogzugriffszahlen in Abhängigkeit der Verbreitung neuer Artikel via Twitter und anderer Social Media Dienste oder Absprungraten in Abhängigkeit referenzierender Websites. Zugriffszahlen nach konkreten Marketingaktionen, …

Aber einfach so? Gesammelt, tabellarisch aufbereitet und per Diagramm visualisiert, stehen sie einfach nur da, die Daten und laden dazu ein, hinein zu interpertieren.

Noch etwas zu lesen

Skepsis im Umgang mit Zahlen ist nie falsch. Die Beschäftigung mit dieser Frage kann durchaus auch unterhaltsam sein. Beispielsweise in folgendem Buch:

Gerd Gigerenzer
Das Einmaleins der Skepsis
Bvt Berliner Taschenbuch Verlag, 2004

Bildnachweis: Ganz normale Statistik… 

 

Eine Antwort zum Beitrag “Gedanken zum Datensammeln”

  1. am 19 Apr 09 um 09:52 meint

    Am Sprichwort “Traue keiner Statistik, die du nicht selber gefälscht hast” ist schon was wahres dran!

Auch was dazu sagen?