Selektives Vergessen kann der KI helfen, besser zu lernen


Die Originalversion von diese Geschichte erschien in Quanta-Magazin.

Ein Team von Informatikern hat eine erstellt flinkerer, flexiblerer Typ des maschinellen Lernmodells. Der Trick: Es muss regelmäßig vergessen, was es weiß. Und obwohl dieser neue Ansatz die riesigen Modelle, die den größten Apps zugrunde liegen, nicht verdrängen wird, könnte er mehr darüber verraten, wie diese Programme Sprache verstehen.

Die neue Forschung stellt „einen bedeutenden Fortschritt auf diesem Gebiet“ dar, sagte er Jea Kwonein KI-Ingenieur am Institute for Basic Science in Südkorea.

Die heute verwendeten KI-Sprach-Engines basieren größtenteils auf künstliche neurale Netzwerke. Jedes „Neuron“ im Netzwerk ist eine mathematische Funktion, die Signale von anderen Neuronen empfängt, einige Berechnungen durchführt und Signale über mehrere Neuronenschichten weiterleitet. Anfangs ist der Informationsfluss mehr oder weniger zufällig, aber durch Training verbessert sich der Informationsfluss zwischen Neuronen, da sich das Netzwerk an die Trainingsdaten anpasst. Wenn ein KI-Forscher beispielsweise ein zweisprachiges Modell erstellen möchte, trainiert er das Modell mit einem großen Stapel Text aus beiden Sprachen, wodurch die Verbindungen zwischen Neuronen so angepasst werden, dass der Text in einer Sprache mit dem Äquivalent in Beziehung gesetzt wird Wörter im anderen.

Dieser Trainingsprozess erfordert jedoch viel Rechenleistung. Wenn das Modell nicht sehr gut funktioniert oder sich die Bedürfnisse des Benutzers später ändern, ist es schwierig, es anzupassen. „Angenommen, Sie haben ein Modell mit 100 Sprachen, aber stellen Sie sich vor, dass eine gewünschte Sprache nicht abgedeckt ist“, sagte er Mikel Artetxe, Mitautor der neuen Studie und Gründer des KI-Startups Reka. „Man könnte von vorne anfangen, aber das ist nicht ideal.“

Artetxe und seine Kollegen haben versucht, diese Einschränkungen zu umgehen. Vor einigen Jahren, Artetxe und andere trainierten ein neuronales Netzwerk in einer Sprache und löschten dann alles, was es über die Bausteine ​​von Wörtern, sogenannte Token, wusste. Diese werden in der ersten Schicht des neuronalen Netzwerks, der sogenannten Einbettungsschicht, gespeichert. Sie ließen alle anderen Schichten des Modells in Ruhe. Nachdem sie die Token der ersten Sprache gelöscht hatten, trainierten sie das Modell auf der zweiten Sprache neu, wodurch die Einbettungsschicht mit neuen Token aus dieser Sprache gefüllt wurde.

Obwohl das Modell nicht übereinstimmende Informationen enthielt, funktionierte die Umschulung: Das Modell konnte die neue Sprache lernen und verarbeiten. Die Forscher vermuteten, dass die Einbettungsschicht zwar spezifische Informationen zu den in der Sprache verwendeten Wörtern speicherte, die tieferen Ebenen des Netzwerks jedoch abstraktere Informationen über die Konzepte hinter menschlichen Sprachen speicherten, die dem Modell dann beim Erlernen der zweiten Sprache halfen.

„Wir leben in der gleichen Welt. „Wir konzipieren die gleichen Dinge mit unterschiedlichen Wörtern“ in verschiedenen Sprachen, sagte er Yihong Chen, der Hauptautor des aktuellen Artikels. „Deshalb gibt es im Modell dieselben übergeordneten Argumente. Ein Apfel ist etwas Süßes und Saftiges, nicht nur ein Wort.“

source-114

Leave a Reply