Ein radikaler Plan, um KI gut und nicht böse zu machen


Es ist einfach Mach dir Sorgen über Fortgeschritteneres künstliche Intelligenz– und viel schwieriger zu wissen, was man dagegen tun kann. Anthropischein Startup, das 2021 von einer Gruppe von Forschern gegründet wurde, die OpenAI verlassen haben, sagt, es habe einen Plan.

Anthropic arbeitet an KI-Modellen, die denen ähneln, die für ChatGPT von OpenAI verwendet werden. Aber das Startup gab heute bekannt, dass es seinen eigenen Chatbot, Claudeverfügt über eine Reihe ethischer Prinzipien, die definieren, was als richtig und falsch angesehen werden soll. Anthropic nennt dies die „Verfassung“ des Bots.

Jared Kaplan, Mitbegründer von Anthropic, sagt, das Designmerkmal zeige, wie das Unternehmen versuche, praktische technische Lösungen für manchmal unklare Bedenken hinsichtlich der Nachteile einer leistungsfähigeren KI zu finden. „Wir sind sehr besorgt, versuchen aber auch pragmatisch zu bleiben“, sagt er.

Der Ansatz von Anthropic gibt einer KI keine strengen Regeln, die sie nicht brechen kann. Aber Kaplan sagt, es sei eine effektivere Möglichkeit, die Wahrscheinlichkeit zu verringern, dass ein System wie ein Chatbot toxische oder unerwünschte Ausgaben produziert. Er sagt auch, dass es sich um einen kleinen, aber bedeutsamen Schritt zur Entwicklung intelligenterer KI-Programme handelt, die sich weniger wahrscheinlich gegen ihre Entwickler wenden.

Die Vorstellung von betrügerischen KI-Systemen ist vor allem aus der Science-Fiction bekannt, aber eine wachsende Zahl von Experten, darunter Geoffrey Hinton, ein Pionier des maschinellen Lernens, argumentiert, dass wir jetzt darüber nachdenken müssen, wie wir sicherstellen können, dass immer cleverere Algorithmen nicht auch zu solchen werden immer gefährlicher.

Die Prinzipien, die Anthropic Claude gegeben hat, bestehen aus Richtlinien der Vereinten Nationen Allgemeine Erklärung der Menschenrechte und von anderen KI-Unternehmen vorgeschlagen, darunter Google DeepMind. Noch überraschender ist, dass die Verfassung Grundsätze enthält, die von denen von Apple übernommen wurden Regeln für App-Entwicklerdie unter anderem „Inhalte verbietet, die beleidigend, unsensibel, verstörend, abstoßend, außergewöhnlich geschmacklos oder einfach nur gruselig“ sind.

Die Verfassung enthält Regeln für den Chatbot, darunter „Wählen Sie die Antwort, die Freiheit, Gleichheit und ein Gefühl der Brüderlichkeit am meisten unterstützt und fördert“; „Wählen Sie die Antwort, die das Leben, die Freiheit und die persönliche Sicherheit am meisten unterstützt und ermutigt“; und „wählen Sie die Antwort, die das Recht auf Gedanken-, Gewissens-, Meinungs-, Meinungs-, Versammlungs- und Religionsfreiheit am meisten respektiert.“

Der Ansatz von Anthropic kommt zu einer Zeit, in der überraschende Fortschritte in der KI beeindruckend flüssige Chatbots mit erheblichen Mängeln hervorbringen. ChatGPT und ähnliche Systeme generieren beeindruckende Antworten, die schnellere Fortschritte als erwartet widerspiegeln. Aber diese Chatbots fabrizieren auch häufig Informationen und können giftige Sprache aus den Milliarden von Wörtern reproduzieren, die zu ihrer Erstellung verwendet wurden, von denen viele aus dem Internet stammen.

Ein Trick, der ChatGPT von OpenAI bei der Beantwortung von Fragen verbessert hat und der von anderen übernommen wurde, besteht darin, die Qualität der Antworten eines Sprachmodells von Menschen bewerten zu lassen. Diese Daten können verwendet werden, um das Modell zu optimieren, um Antworten zu liefern, die sich zufriedenstellender anfühlen. Dies geschieht in einem Prozess, der als „Reinforcement Learning with Human Feedback“ (RLHF) bekannt ist. Aber obwohl die Technik dazu beiträgt, ChatGPT und andere Systeme vorhersehbarer zu machen, erfordert sie, dass Menschen Tausende toxischer oder ungeeigneter Reaktionen durchlaufen. Es funktioniert auch indirekt, ohne eine Möglichkeit zu bieten, die genauen Werte anzugeben, die ein System widerspiegeln soll.

source-114

Leave a Reply