So erkennen Forscher KI-generierten Text


KI-generierter Text, von Tools wie ChatGPT beginnen sich auf das tägliche Leben auszuwirken. Lehrer testen es im Rahmen des Unterrichts. Vermarkter sind am Bit to champing ihre Praktikanten ersetzen. Memer gehen Bock wild. Mich? Es wäre gelogen zu sagen, dass ich kein bin wenig besorgt über die Roboter, die zu meinem Schreibauftritt kommen. (ChatGPT kann glücklicherweise noch nicht auf Zoom-Anrufe zugreifen und Interviews führen.)

Da generative KI-Tools jetzt öffentlich zugänglich sind, werden Sie beim Surfen im Internet wahrscheinlich auf mehr synthetische Inhalte stoßen. Einige Instanzen können gutartig sein, wie z automatisch generiertes BuzzFeed-Quiz darüber, welches frittierte Dessert zu Ihren politischen Überzeugungen passt. (Sind Sie demokratischer Beignet oder ein republikanischer Zeppole?) Andere Fälle könnten unheimlicher sein, wie eine ausgeklügelte Propagandakampagne einer ausländischen Regierung.

Akademische Forscher suchen nach Wegen, um festzustellen, ob eine Wortfolge von einem Programm wie ChatGPT generiert wurde. Was ist im Moment ein entscheidender Indikator dafür, dass alles, was Sie gerade lesen, mit KI-Unterstützung erstellt wurde?

Ein Mangel an Überraschung.

Entropie, ausgewertet

Algorithmen mit der Fähigkeit, die Muster des natürlichen Schreibens nachzuahmen, gibt es schon seit einigen Jahren, als Sie vielleicht denken. Im Jahr 2019 haben Harvard und das MIT-IBM Watson AI Lab ein experimentelles Tool veröffentlicht das Text scannt und Wörter basierend auf ihrem Zufälligkeitsgrad hervorhebt.

Warum wäre das hilfreich? Ein KI-Textgenerator ist im Grunde eine mystische Mustermaschine: hervorragend in der Nachahmung, schwach im Werfen von Kurvenbällen. Sicher, wenn Sie eine E-Mail an Ihren Chef schreiben oder eine Gruppennachricht an einige Freunde senden, fühlen sich Ihr Ton und Ihre Kadenz vielleicht vorhersehbar an, aber unser menschlicher Kommunikationsstil hat eine zugrunde liegende launische Qualität.

Edward Tian, ​​ein Student in Princeton, ist schnell bekannt geworden Anfang dieses Jahres mit einem ähnlichen, experimentellen Tool namens GPTZero, richtet sich an Pädagogen. Es misst die Wahrscheinlichkeit, dass ein Inhalt von ChatGPT generiert wurde, basierend auf seiner „Perplexität“ (auch bekannt als Zufälligkeit) und „Burstiness“ (auch bekannt als Varianz). OpenAI, das hinter ChatGPT steht, wurde fallen gelassen ein anderes Werkzeug gemacht, um Text zu scannen, der über 1.000 Zeichen lang ist, und eine Urteilsentscheidung zu treffen. Das Unternehmen spricht offen über die Einschränkungen des Tools, wie Fehlalarme und begrenzte Wirksamkeit außerhalb der englischen Sprache. So wie englischsprachige Daten für die Hintermänner von KI-Textgeneratoren oft von höchster Priorität sind, sind die meisten Tools zur KI-Texterkennung derzeit am besten geeignet, um Englischsprachigen zu helfen.

Können Sie spüren, ob ein Nachrichtenartikel zumindest teilweise von KI verfasst wurde? „Diese KI-generativen Texte können niemals die Arbeit eines Journalisten wie Sie erledigen, Reece“, sagt Tian. Es ist ein gutherziges Gefühl. CNET, eine technisch ausgerichtete Website, wurde mehrfach veröffentlicht Artikel, die von Algorithmen geschrieben wurden und von einem Menschen über die Ziellinie gezogen. ChatGPT fehlt im Moment eine gewisse Chuzpe, und das auch halluziniert gelegentlich, was ein Problem für eine zuverlässige Berichterstattung sein könnte. Jeder weiß, dass qualifizierte Journalisten die Psychedelika für Feierabend aufheben.

Entropie, imitiert

Während diese Erkennungswerkzeuge vorerst hilfreich sind, hat Tom Goldstein, Informatikprofessor an der Universität von Maryland, sieht eine Zukunft, in der sie weniger effektiv werden, da die Verarbeitung natürlicher Sprache immer ausgefeilter wird. „Diese Art von Detektoren beruht auf der Tatsache, dass es systematische Unterschiede zwischen menschlichem und maschinellem Text gibt“, sagt Goldstein. „Aber das Ziel dieser Unternehmen ist es, maschinellen Text zu erstellen, der dem menschlichen Text so nahe wie möglich kommt.“ Bedeutet dies, dass alle Hoffnung auf die Erkennung synthetischer Medien verloren ist? Absolut nicht.

Goldstein arbeitete an einem neueres Papier Erforschung möglicher Wasserzeichenmethoden, die in die großen Sprachmodelle eingebaut werden könnten, die KI-Textgeneratoren antreiben. Es ist nicht narrensicher, aber es ist eine faszinierende Idee. Denken Sie daran, dass ChatGPT versucht, das nächste wahrscheinliche Wort in einem Satz vorherzusagen und während des Prozesses mehrere Optionen vergleicht. Ein Wasserzeichen könnte in der Lage sein, bestimmte Wortmuster als für den KI-Textgenerator tabu zu kennzeichnen. Wenn also der Text gescannt wird und die Wasserzeichenregeln mehrmals gebrochen werden, deutet dies darauf hin, dass ein Mensch dieses Meisterwerk wahrscheinlich herausgehauen hat.

source-114

Leave a Reply