Wenn die KI die Weltherrschaft an sich reißen will, warum kann sie dann nicht auch den Buchstabierwettbewerb lösen?


Meine Aufgabe für unsere KI-Oberherren war einfach: Helft mir, das New York Times Buchstabier-Wettbewerb.

Ich hatte einen großen Teil des Samstagabends damit verbracht, aus den Buchstaben G, Y, A, L, P, O und N so viele Wörter wie möglich zu formen. Aber drei Stunden, 141 Punkte und 37 Wörter – darunter „Nonapology“, „Lagune“ und „Analogie“ – später war ich am Ende. Ein paar weitere Wörter genügten mir, um mich in die „Genie“-Kategorie von Spelling Bee zu katapultieren. Dieser Titel ist denjenigen vorbehalten, die 70 Prozent aller möglichen Wörter mit den vorgegebenen Buchstaben entschlüsseln, und an diesem Punkt gilt das Rätsel als gelöst. (Wer das Rätsel zu 100 Prozent löst, erhält den Rang einer „Bienenkönigin“, aber selbst ich habe Grenzen.)

Mein menschlicher Verstand hatte offensichtlich Mühe, aber für eine KI schien diese Aufgabe ein Kinderspiel zu sein, also startete ich ChatGPT, sagte ihm, dass ich versuche, den Buchstabierwettbewerb zu gewinnen, gab ihm meine Buchstaben und legte die Regeln fest. „Gib mir eine Liste aller Wörter, die man mit ihnen bilden kann“, tippte ich. „Du darfst Buchstaben wiederholen, aber jedes Wort muss ‚N‘ enthalten.“

Als ich die Eingabetaste drückte, spuckte ChatGPT Folgendes zurück:

Hier ist eine Liste von Wörtern, die mit den Buchstaben „GYALPON“ gebildet werden und den Buchstaben „N“ enthalten müssen:
GLNPAYO
YPNL
PGNOYL
Abonnieren
LGNAPYO
ANLY
NAYGOPL
GYPON
AOGPLNY
PNAOGLY
Aufgrund der großen Anzahl möglicher Permutationen handelt es sich hierbei lediglich um einen Auszug aus der Liste.

Kein toller Start.

„Die Wörter müssen im Wörterbuch stehen“, antwortete ich. „Klar“, kam die Antwort. „Ich werde eine Liste gültiger englischer Wörter basierend auf den angegebenen Buchstaben bereitstellen.“„ANGLY, GALON, LANG.

Offensichtlich funktionierte das nicht, also griff ich auf Microsofts Copilot zurück (YANG, SPIELEN, PLANEN, NERVIG), Googles Gemini (GAPON, GON, GIAN) und Claude von Anthropic (MANGO, LAUFEND, LAWN17.LAY). Meta AI teilte mir hilfreich mit, dass es darauf achtete, nur Wörter aufzunehmen, die von Wörterbüchern erkannt wurden, in einer Liste, die Folgendes enthielt: NALYP Und NAGY, während Perplexity — ein Chatbot mit Ambitionen Google Search zu töten – einfach geschrieben GAL Hunderte Male, bevor es abrupt einfriert.

Die Ratlosigkeit war beim Lösen des Buchstabierwettbewerbs beschissenDie Ratlosigkeit war beim Lösen des Buchstabierwettbewerbs beschissen

Perplexity, ein Chatbot mit dem Ziel, die Google-Suche zu zerstören, scheiterte, als er aufgefordert wurde, aus einer Reihe von Buchstaben Wörter zu bilden. (Screenshot von Pranav Dixit / Engadget)

KI kann heute Bilder, Videos und Audiodateien so schnell erstellen, wie Sie Beschreibungen Ihrer gewünschten Objekte eintippen. Sie kann Gedichte, Essays und Hausarbeiten schreiben. Sie kann auch nur eine blasse Kopie Ihrer Freundin, Ihres Therapeuten und Ihres persönlichen Assistenten sein. Und viele Menschen glauben, dass sie im Begriff ist, Menschen durch Automatisierung arbeitslos zu machen und die Welt auf eine Weise zu verändern, die wir uns kaum vorstellen können. Warum ist sie also so schlecht darin, ein einfaches Worträtsel zu lösen?

Die Antwort liegt darin, wie große Sprachmodelle funktionieren, die zugrunde liegende Technologie, die unseren modernen KI-Hype antreibt. Computerprogrammierung ist traditionell logisch und regelbasiert; Sie geben Befehle ein, die ein Computer gemäß einer Reihe von Anweisungen ausführt, und er liefert eine gültige Ausgabe. Aber maschinelles Lernen, von dem generative KI eine Untergruppe ist, ist anders.

„Es ist rein statistisch“, sagte mir Noah Giansiracusa, Professor für Mathematik und Datenwissenschaften an der Bentley University. „Es geht eigentlich darum, Muster aus Daten zu extrahieren und dann neue Daten zu generieren, die weitgehend zu diesen Mustern passen.“

OpenAI hat offiziell nicht geantwortet, aber ein Unternehmenssprecher sagte mir, dass diese Art von „Feedback“ OpenAI geholfen habe, das Verständnis und die Reaktionen des Modells auf Probleme zu verbessern. „Dinge wie Wortstrukturen und Anagramme sind kein üblicher Anwendungsfall für Perplexity, daher ist unser Modell nicht dafür optimiert“, sagte mir Unternehmenssprecherin Sara Platnick. „Als täglicher Wordle/Connections/Mini Crossword-Spieler bin ich gespannt, wie wir abschneiden!“ Microsoft und Meta lehnten einen Kommentar ab. Google und Anthropic antworteten bis zum Veröffentlichungszeitpunkt nicht.

Das Herzstück großer Sprachmodelle sind „Transformer“, ein technischer Durchbruch, der 2017 von Forschern bei Google erzielt wurde. Sobald Sie eine Eingabeaufforderung eingeben, zerlegt ein großes Sprachmodell Wörter oder Teile dieser Wörter in mathematische Einheiten, sogenannte „Token“. Transformer sind in der Lage, jedes Token im Kontext des größeren Datensatzes zu analysieren, mit dem ein Modell trainiert wird, um zu sehen, wie sie miteinander verbunden sind. Sobald ein Transformer diese Beziehungen versteht, kann er auf Ihre Eingabeaufforderung reagieren, indem er das nächste wahrscheinliche Token in einer Sequenz errät. Der Financial Times hat eine tolle animierter Erklärfilm dort wird das Ganze aufgeschlüsselt, falls es Sie interessiert.

Auch die Meta-KI war beim Lösen des Buchstabierwettbewerbs schlechtAuch die Meta-KI war beim Lösen des Buchstabierwettbewerbs schlecht

Ich habe „sicher“ vertippt, aber Meta AI dachte, ich hätte es als Wort vorgeschlagen und sagte mir, dass ich Recht hatte. (Screenshot von Pranav Dixit / Engadget)

ICH Gedanke Ich gab den Chatbots genaue Anweisungen, meine Spelling Bee-Wörter zu generieren, sie wandelten meine Wörter lediglich in Token um und verwendeten Transformatoren, um plausible Antworten auszuspucken. „Das ist nicht dasselbe wie Computerprogrammieren oder das Eintippen eines Befehls in eine DOS-Eingabeaufforderung“, sagte Giansiracusa. „Ihre Wörter wurden in Zahlen übersetzt und dann statistisch verarbeitet.“ Es scheint, als wäre eine rein logikbasierte Abfrage die denkbar schlechteste Anwendung für die Fähigkeiten der KI – vergleichbar mit dem Versuch, eine Schraube mit einem ressourcenintensiven Hammer zu drehen.

Der Erfolg eines KI-Modells hängt auch von den Daten ab, mit denen es trainiert wird. Deshalb schließen KI-Unternehmen derzeit fieberhaft Verträge mit Nachrichtenverlagen ab – je aktueller die Trainingsdaten, desto besser die Antworten. Generative KI zum Beispiel saugt Schachzüge vorzuschlagen, ist aber zumindest geringfügig besser als das Lösen von Worträtseln. Giansiracusa weist darauf hin, dass die Fülle an Schachpartien, die im Internet verfügbar sind, mit ziemlicher Sicherheit in den Trainingsdaten für bestehende KI-Modelle enthalten ist. „Ich vermute, dass es einfach nicht so viele kommentierte Spelling Bee-Spiele online gibt, mit denen KI trainieren kann, wie es Schachpartien gibt“, sagte er.

„Wenn Ihr Chatbot von einem Wortspiel mehr verwirrt zu sein scheint als eine Katze mit einem Zauberwürfel, liegt das daran, dass er nicht speziell darauf trainiert wurde, komplexe Wortspiele zu spielen“, sagt Sandi Besen, eine Forscherin für künstliche Intelligenz bei Neudesic, einem KI-Unternehmen im Besitz von IBM. „Wortspiele haben bestimmte Regeln und Einschränkungen, an die sich ein Modell nur schwer halten könnte, wenn es während des Trainings, der Feinabstimmung oder der Eingabeaufforderung nicht ausdrücklich dazu angewiesen würde.“

„Wenn Ihr Chatbot durch ein Wortspiel mehr verwirrt zu sein scheint als eine Katze durch einen Zauberwürfel, dann liegt das daran, dass er nicht speziell darauf trainiert wurde, komplexe Wortspiele zu spielen.“

Nichts davon hat die weltweit führenden KI-Unternehmen davon abgehalten, die Technologie als Allheilmittel zu vermarkten, oft Behauptungen stark übertreiben über seine Fähigkeiten. Im April prahlten sowohl OpenAI als auch Meta, dass ihre neuen KI-Modelle in der Lage sein würden, „logisch zu denken“ und „zu planen“. In einem Interview sagte Brad Lightcap, Chief Operating Officer von OpenAI erzählt Die Financial Times dass die nächste Generation von GPT, dem KI-Modell, das ChatGPT antreibt, Fortschritte bei der Lösung „schwieriger Probleme“ wie dem logischen Denken zeigen würde. Joelle Pineau, Metas Vizepräsidentin für KI-Forschung, sagte der Publikation, dass das Unternehmen „hart daran arbeite, herauszufinden, wie man diese Modelle nicht nur zum Sprechen bringt, sondern auch zum logischen Denken, zum Planen … zum Erinnern.“

Meine wiederholten Versuche, GPT-4o und Llama 3 dazu zu bringen, den Spelling Bee zu knacken, scheiterten spektakulär. Als ich ChatGPT sagte, dass GALON, LANG und ANGLY nicht im Wörterbuch standen, sagte der Chatbot, dass er mit mir übereinstimmte und schlug vor GALVANOPTIE stattdessen. Als ich in meiner Antwort auf Meta AIs Angebot, weitere Wörter zu finden, das Wort „sure“ als „sur“ falsch eintippte, sagte mir der Chatbot, dass „sur“ tatsächlich ein anderes Wort sei, das mit den Buchstaben G, Y, A, L, P, O und N gebildet werden kann.

Offensichtlich sind wir noch weit von der künstlichen allgemeinen Intelligenz entfernt, dem nebulösen Konzept, das den Moment beschreibt, in dem Maschinen in der Lage sind, die meisten Aufgaben genauso gut oder besser zu erledigen als Menschen. Einige Experten, wie Yann LeCun, Metas leitender KI-Wissenschaftler, haben sich offen über die Grenzen großer Sprachmodelle geäußert und behauptet, dass sie nie die Intelligenz des Menschen erreichen werden, da sie keine wirkliche Logik verwenden. Bei einer Veranstaltung in London im letzten Jahr sagte LeCun: sagte dass die aktuelle Generation von KI-Modellen „einfach nicht versteht, wie die Welt funktioniert. Sie sind nicht in der Lage zu planen. Sie sind nicht in der Lage, wirklich zu denken“, sagte er. „Wir haben keine völlig autonomen, selbstfahrenden Autos, die sich in etwa 20 Stunden Übung das Fahren beibringen können, etwas, das ein 17-Jähriger kann.“

Giansiracusa schlägt jedoch einen vorsichtigeren Ton an. „Wir wissen nicht wirklich, wie Menschen denken, oder? Wir wissen nicht, was Intelligenz eigentlich ist. Ich weiß nicht, ob mein Gehirn nur ein großer statistischer Rechner ist, so etwas wie eine effizientere Version eines großen Sprachmodells.“

Vielleicht liegt der Schlüssel zum Leben mit generativer KI, ohne dem Hype oder der Angst zu erliegen, darin, einfach ihre inhärenten Einschränkungen zu verstehen. „Diese Tools sind eigentlich nicht für viele Dinge konzipiert, für die die Leute sie verwenden“, sagte Chirag Shah, Professor für KI und maschinelles Lernen an der University of Washington. Er war Mitautor eines viel beachteten Forschungsbericht im Jahr 2022, in dem er die Verwendung großer Sprachmodelle in Suchmaschinen kritisiert. Technologieunternehmen, meint Shah, könnten viel transparenter darüber sein, was KI kann und was nicht, bevor sie es uns aufdrängen. Dieser Zug ist jedoch möglicherweise bereits abgefahren. In den letzten Monaten haben die größten Technologieunternehmen der Welt – Microsoft, Meta, Samsung, Apple und Google – erklärt, dass sie KI eng in ihre Produkte, Dienste und Betriebssysteme integrieren werden.

„Die Bots sind Mist, weil sie nicht dafür entwickelt wurden“, sagte Shah zu meinem Wortspiel-Rätsel. Ob sie auch bei all den anderen Problemen Mist sind, mit denen die Technologieunternehmen sie konfrontieren, bleibt abzuwarten.

Wie haben KI-Chatbots Sie sonst noch im Stich gelassen? Schreiben Sie mir eine E-Mail an [email protected] und lass mich wissen!

Update, 13. Juni 2024, 16:19 Uhr ET: Diese Geschichte wurde um eine Erklärung von Perplexity ergänzt.

source-115

Leave a Reply