Bei der Bot-Jagd dreht sich alles um die Stimmung


Christopher Bouzy ist versuchen, den Bots einen Schritt voraus zu sein. Als die Person hinter Bot Sentinel, einem beliebten Bot-Erkennungssystem, aktualisieren er und sein Team ihre Modelle für maschinelles Lernen ständig, aus Angst, dass sie „altbacken“ werden. Die Aufgabe? Sortieren von 3,2 Millionen Tweets von gesperrten Konten in zwei Ordner: „Bot“ oder „Nicht“.

Um Bots zu erkennen, müssen die Modelle von Bot Sentinel zunächst lernen, was problematisches Verhalten ist, indem sie Daten ausgesetzt werden. Und indem das Modell mit Tweets in zwei unterschiedlichen Kategorien versorgt wird – Bot oder kein Bot –, kann sich Bouzys Modell selbst kalibrieren und angeblich das Wesentliche dessen finden, was seiner Meinung nach einen Tweet problematisch macht.

Trainingsdaten sind das Herzstück jedes maschinellen Lernmodells. Im aufstrebenden Bereich der Bot-Erkennung bestimmt die Art und Weise, wie Bot-Jäger Tweets definieren und kennzeichnen, die Art und Weise, wie ihre Systeme Bot-ähnliches Verhalten interpretieren und klassifizieren. Laut Experten kann dies eher eine Kunst als eine Wissenschaft sein. „Letztendlich geht es beim Etikettieren um eine Stimmung“, sagt Bouzy. „Es geht nicht nur um die Worte im Tweet, der Kontext zählt.“

Er ist ein Bot, sie ist ein Bot, jeder ist ein Bot

Bevor jemand Bots jagen kann, muss er herausfinden, was ein Bot ist – und diese Antwort ändert sich je nachdem, wen Sie fragen. Das Internet ist voll von Leuten, die sich gegenseitig beschuldigen, wegen unbedeutender politischer Meinungsverschiedenheiten Bots zu sein. Trolle werden Bots genannt. Personen ohne Profilbild und wenige Tweets oder Follower werden als Bots bezeichnet. Selbst unter professionellen Bot-Jägern gehen die Antworten auseinander.

Bouzy definiert Bots als „problematische Konten“ und trainiert Bot Sentinel, um sie auszusortieren. Filippo Menczer, Professor für Informatik und Informatik an der Indiana University, sagt, das von ihm mitentwickelte Tool Botometer definiert Bots als Konten, die zumindest teilweise von Software gesteuert werden. Kathleen Carley ist Informatikprofessorin am Institute for Software Research der Carnegie Mellon University, die an der Entwicklung von zwei Bot-Erkennungstools mitgewirkt hat: BotHunter und BotBuster. Carley definiert einen Bot als „ein Konto, das mit vollständig automatisierter Software betrieben wird“, eine Definition, die mit der von Twitter übereinstimmt. „Ein Bot ist ein automatisiertes Konto – nicht mehr oder weniger“, so das Unternehmen schrieb in einem Blogbeitrag vom Mai 2020 über Plattformmanipulation.

So wie die Definitionen unterschiedlich sind, stimmen die Ergebnisse dieser Tools nicht immer überein. Ein Konto, das beispielsweise von Botometer als Bot gekennzeichnet ist, kann auf Bot Sentinel als vollkommen menschenähnlich zurückkommen und umgekehrt.

Einiges davon ist beabsichtigt. Im Gegensatz zu Botometer, das darauf abzielt, automatisierte oder teilweise automatisierte Konten zu identifizieren, jagt Bot Sentinel Konten, die toxisches Trolling betreiben. Laut Bouzy kennt man diese Konten, wenn man sie sieht. Sie können automatisiert oder von Menschen kontrolliert werden, und sie beteiligen sich an Belästigung oder Desinformation und verstoßen gegen die Nutzungsbedingungen von Twitter. „Nur das Schlimmste vom Schlimmsten“, sagt Bouzy.

Botometer wird von Kaicheng Yang gewartet, einem Doktoranden in Informatik am Observatory on Social Media der Indiana University, der das Tool zusammen mit Menczer entwickelt hat. Das Tool verwendet auch maschinelles Lernen, um Bots zu klassifizieren, aber wenn Yang seine Modelle trainiert, sucht er nicht unbedingt nach Belästigung oder Verstößen gegen die Nutzungsbedingungen. Er sucht nur nach Bots. Laut Yang stellt er sich eine Frage, wenn er seine Trainingsdaten beschriftet: „Muss ich glauben der Tweet kommt von einer Person oder von einem Algorithmus?“

Wie man einen Algorithmus trainiert

Es besteht nicht nur kein Konsens darüber, wie man einen Bot definiert, es gibt auch kein einziges klares Kriterium oder Signal, auf das ein Forscher hinweisen kann, das genau vorhersagt, ob ein Konto ein Bot ist. Bot-Jäger glauben, dass die Offenlegung eines Algorithmus für Tausende oder Millionen von Bot-Konten einem Computer hilft, Bot-ähnliches Verhalten zu erkennen. Aber die objektive Effizienz jedes Bot-Erkennungssystems wird durch die Tatsache getrübt, dass Menschen immer noch ein Urteil darüber fällen müssen, welche Daten für den Aufbau verwendet werden sollen.

Nehmen Sie zum Beispiel Botometer. Laut Yang wird Botometer mit Tweets von rund 20.000 Konten trainiert. Während einige dieser Konten sich selbst als Bots identifizieren, werden die meisten von Yang und einem Forscherteam manuell kategorisiert, bevor sie vom Algorithmus verarbeitet werden. (Menczer sagt, dass einige der Konten, die zum Trainieren von Botometer verwendet werden, aus Datensätzen aus anderen Peer-Review-Forschungen stammen. „Wir versuchen, alle Daten zu verwenden, die wir in die Hände bekommen können, solange sie aus einer seriösen Quelle stammen“, sagt er sagt.)



source-114

Leave a Reply