System erkennt Twitter-Bots sprachunabhängig

Tweet-Gewirr: Neue Anwendung schafft Klarheit (Foto: geralt, pixabay.com)
Tweet-Gewirr: Neue Anwendung schafft Klarheit (Foto: geralt, pixabay.com)

Um Twitter optimal für Big-Data-Analysen zu nutzen, wäre es günstig, die automatisierten Nachrichten von Bots selbstständig und sprachunabhängig zu filtern. Skandinavische Forscher haben nun eine Anwendung entwickelt, die einen grossen Schritt in Richtung eben dieses Ziels darstellt. Denn mit schwedischen und finnischen Daten trainiert, kann das System englische Tweets mit 98,2-prozentiger Genauigkeit als menschlich oder maschinell einstufen.

Für Forscher von Soziologen über Politologen bis hin zu Ökonomen, sind soziale Medien wie Twitter gewaltige Datenquellen. Ein Problem ist dabei aber, dass geschätzte 20 bis 25 Prozent der Tweets von Bots stammen und damit für die Forschung oft eigentlich störendes Rauschen sind. Die neue Anwendung verspricht nun die Möglichkeit, dieses Rauschen vergleichsweise effizient herauszufiltern. "Das verbessert die Datenqualität und zeichnet ein genaueres Bild der Realität", sagt Mikko Laitinen, Englisch-Professor an der Universität Ostfinnland.

Für die Entwicklung des Systems hat er mit Maschinenlern-Spezialisten der Linné-Universität zusammengearbeitet. Ein wesentliches Anliegen der Forscher war dabei, dass die Lösung nicht nur für Tweets in einer Sprache beurteilen kann, ob sie von echten Menschen oder Bots stammen, sondern möglichst sprachunabhängig funktioniert. Das Team hat daher jeweils 5.000 finnische und schwedische Tweets genutzt, um die Lösung zu trainieren. Bei einem Satz von 5.000 englischen Tweets konnte die Anwendung dann tatsächlich mit sehr hoher Genauigkeit feststellen, was von einem Bot stammte und was nicht - obwohl sie dazu eher einfach auf bestimmte Metadaten setzt.

Laitinen und seine Kollegen wollen nun testen, wie gut sich das System bei anderen Sprachkombinationen macht - etwa, wenn es mit Finnisch und Englisch trainiert wird und dann schwedische Tweets evaluieren soll. Die Experten gehen auch davon aus, dass noch mehrsprachigere Trainingsdatensätze die Bot-Erkennung in einer unbekannten Sprache weiter verbessern. Das möchten die Forscher ebenfalls testen, zunächst mit zwei bis drei zusätzlichen Sprachen im Trainingsdatensatz.
http://uef.fi/en/etusivu
http://lnu.se/en