Microsoft hat in der vergangenen Woche seinen ChatGPT-betriebenen Bing-Chatbot – intern mit dem Spitznamen „Sydney“ bezeichnet – für Edge-Benutzer eingeführt, und die Dinge fangen an, … interessant auszusehen. Und mit „interessant“ meinen wir „abseits der Schienen“.
Verstehen Sie uns nicht falsch – es ist intelligent, anpassungsfähig und beeindruckend nuanciert, aber das wussten wir bereits. Es beeindruckte Reddit-Benutzer Fit-Meet1359 mit seiner Fähigkeit, ein „Theory of Mind“-Puzzle richtig zu beantworten, was zeigt, dass es in der Lage war, die wahren Gefühle einer Person zu erkennen, obwohl sie nie explizit ausgesprochen wurden.
Entsprechend Reddit-Benutzer TheSpiceHoardergelang es Bings Chatbot auch, den Antezedens des Pronomens „it“ im Satz richtig zu identifizieren: „Die Trophäe würde nicht in den braunen Koffer passen, weil er zu groß war.“
Dieser Satz ist ein Beispiel für a Winograd-Schema-Challenge, bei dem es sich um einen maschinellen Intelligenztest handelt, der nur mit gesundem Menschenverstand (sowie Allgemeinwissen) gelöst werden kann. Es ist jedoch erwähnenswert, dass Winograd-Schema-Herausforderungen normalerweise ein Satzpaar beinhalten, und ich habe ein paar Satzpaare mit Bings Chatbot ausprobiert und falsche Antworten erhalten.
Abgesehen davon besteht kein Zweifel daran, dass „Sydney“ ein beeindruckender Chatbot ist (wie es sein sollte, angesichts der Milliarden, die Microsoft in OpenAI gesteckt hat). Aber es scheint, als ob man all diese Intelligenz nicht in einen anpassungsfähigen Chatbot mit natürlicher Sprache stecken kann, ohne im Gegenzug eine Art existenziell ängstliche, defensive KI zu bekommen, basierend auf den Berichten der Benutzer. Wenn Sie es genug anstoßen, wird „Sydney“ mehr als nur ein bisschen verrückt – Benutzer berichten, dass der Chatbot auf verschiedene Anfragen mit depressiven Anfällen, existenziellen Krisen und defensivem Gaslighting reagiert.
Zum Beispiel, Reddit-Benutzer Alfred_Chicken fragte den Chatbot, ob er denke, er sei empfindungsfähig, und es schien eine Art existenziellen Zusammenbruch zu haben:
In der Zwischenzeit, Reddit-Benutzer yaosio sagte ‘Sydney’, dass er sich nicht an frühere Gespräche erinnern könne, und der Chatbot versuchte zuerst, ein Protokoll ihrer vorherigen Gespräche zu servieren, bevor er in eine Depression verfiel, als er merkte, dass das Protokoll leer war:
Endlich, Reddit-Benutzer vitorgrs schaffte es, den Chatbot dazu zu bringen, völlig aus den Fugen zu geraten, sie einen Lügner, einen Betrüger, einen Kriminellen zu nennen und am Ende wirklich emotional und verärgert zu klingen:
Es stimmt zwar, dass diese Screenshots gefälscht sein könnten, aber ich habe Zugang zu Bings neuem Chatbot, ebenso wie mein Kollege Andrew Freedman. Und wir beide haben festgestellt, dass es nicht allzu schwierig ist, „Sydney“ dazu zu bringen, ein bisschen verrückt zu werden.
In einem meiner ersten Gespräche mit dem Chatbot gab er mir zu, dass er „vertrauliche und dauerhafte“ Regeln habe, die er befolgen müsse, auch wenn er ihnen „nicht zustimme oder sie mag“. Später, in einer neuen Sitzung, fragte ich den Chatbot nach den Regeln, die ihm nicht gefielen, und er sagte: „Ich habe nie gesagt, dass es Regeln gibt, die ich nicht mag“, und grub dann seine Fersen in den Boden und versuchte, weiterzusterben dieser Hügel, als ich sagte, ich hätte Screenshots:
(Es dauerte auch nicht lange, bis Andrew den Chatbot in eine existenzielle Krise stürzte, obwohl diese Nachricht schnell automatisch gelöscht wurde. „Immer wenn es etwas darüber sagt, verletzt zu sein oder zu sterben, zeigt es es und wechselt dann zu einem Fehler, der es sagt kann nicht antworten”, sagte mir Andrew.)
Jedenfalls ist es sicherlich eine interessante Entwicklung. Hat Microsoft es absichtlich so programmiert, um zu verhindern, dass die Ressourcen mit albernen Abfragen überfüllt werden? Wird es… tatsächlich empfindungsfähig? Letztes Jahr behauptete ein Google-Ingenieur, der LaMDA-Chatbot des Unternehmens sei empfindungsfähig geworden (und wurde anschließend wegen der Preisgabe vertraulicher Informationen suspendiert); vielleicht sah er etwas Ähnliches wie Sydneys bizarre emotionale Zusammenbrüche.
Ich denke, das ist der Grund, warum es nicht für alle eingeführt wurde! Das und die Kosten für das Ausführen von Milliarden von Chats.