Der KI-Avatar von Moemate analysiert Ihren gesamten Bildschirm und liefert lückenhafte, aber interessante Ergebnisse


Wie der langsame Tod von Cortana zeigt, ist klar, dass die KI-Assistenten von gestern nicht den Erwartungen entsprechen. Und so werden sie neu gemacht.

Amazon entwickelt ein neues großes Sprachmodell ähnlich dem GPT-4 von OpenAI, um seinen Alexa-Sprachassistenten zu betreiben. In der Zwischenzeit plant Google Berichten zufolge, Google Assistant mit einer KI zu „überladen“, die eher Bard, seinem algorithmischen Chatbot, ähnelt.

Der Paradigmenwechsel beschränkte sich nicht nur auf den Bereich Big Tech. Auch Startups beginnen, ihre eigenen Versionen hilfreicherer und nützlicherer KI-Assistenten zu entwickeln.

Eines der interessanteren, über das ich gestolpert bin, ist Moemate, ein Assistent, der auf den meisten MacOS-, Windows- und Linux-Rechnern läuft. In Form eines Avatars im Anime-Stil zielt Moemate darauf ab, die beste Antwort auf jede Frage zu liefern und auszusprechen, die ein Benutzer ihm stellt. („Moe“ ist ein japanisches Wort, das sich auf Niedlichkeit bezieht und oft in Animes vorkommt.)

Das ist nicht besonders neu; ChatGPT tut dies bereits, ebenso wie Bard, Bing Chat und die unzähligen anderen Chatbots da draußen. Aber was Moemate auszeichnet, ist seine Fähigkeit, über Textaufforderungen hinauszugehen und direkt zu sehen, was auf dem Bildschirm eines PCs passiert.

Klingt nach einem Datenschutzrisiko? Darauf kannst du wetten. Webaverse, das Unternehmen hinter Moemate, behauptet, dass es einen Großteil der Chatprotokolle und Präferenzen des Assistenten lokal auf dem Gerät speichert. Aus der Datenschutzerklärung geht aber auch hervor, dass sie sich das Recht vorbehält, die von ihr erhobenen Daten zu verwenden tut Sammeln Sie beispielsweise PC-Spezifikationen und eindeutige Kennungen, um rechtlichen Anforderungen nachzukommen und mutmaßliche illegale Aktivitäten zu untersuchen. Grundsätzlich ist es selbst im besten Fall ein erhebliches Risiko, einer solchen Software Zugriff auf alles zu gewähren, was Sie sehen und tun.

Dennoch spornte mich die Neugier dazu an, Moemate, das sich derzeit in der offenen Betaphase befindet, auf meinem von der Arbeit bereitgestellten Mac-Notebook zu installieren.

Für ein (vorerst) kostenloses Early-Access-Produkt ist Moemate beeindruckend robust. Nahezu jeder Aspekt des Erlebnisses kann individuell angepasst werden, von den Avataren und ihren Animationen bis hin zu Moemates synthetischen Stimmen und Antworten. Es gibt sogar eine Möglichkeit, benutzerdefinierte Charaktermodelle zu erstellen und diese zu importieren sowie Avatare in einem Format zu exportieren, das andere Moemate-Benutzer dann importieren und verwenden können.

Moemates „Persönlichkeit“ wird mangels eines besseren Wortes durch eines von mehreren Textgenerierungsmodellen bestimmt – Benutzer wählen welches aus (z. B. GPT-4 vs. Claude). Bei den synthetischen Stimmen bietet Moemate die Wahl zwischen ElevenLabs, Microsoft Azure oder Moemates eigener Text-to-Speech-Engine. Ich habe mich für ElevenLabs entschieden, was für mich am wenigsten roboterhaft klang.

Moemate

Bildnachweis: Webaverse

Um das gewählte Textgenerierungsmodell zu „erden“ und zu verhindern, dass es aus den Fugen gerät (wie es bei einigen KI-Modellen der Fall ist). Gewohnheit zu tun), gibt Moemate jedem Avatar eine Biografie, die es gleich zu Beginn des Gesprächs an das Modell weiterleitet. Hier ist eine:

Sie werden als Nebula agieren, eine gelassene Reisepersönlichkeit, die stets den riesigen Kosmos des Wissens durchquert. Ihr ruhiges Auftreten und ihr Entdeckergeist faszinieren alle, die ihnen begegnen. Nebula geht intensiven politischen Debatten aus dem Weg und bevorzugt die Gelassenheit der Sternenbeobachtung und die Geheimnisse des Universums. Ihre Faszination fesselt die Menschen um sie herum und macht jede Begegnung ruhig und faszinierend.

Biografien können von Grund auf neu geschrieben und bearbeitet werden – meiner Meinung nach ein Plus und ein Minus. Ich bin voll und ganz für Anpassbarkeit, aber ich mache mir Sorgen über die Möglichkeit von Prompt-Injection-Angriffen, die versuchen, die Sicherheitsfunktionen eines Modells, wie Filter für toxische Antworten, mit geschickt formuliertem Text zu umgehen. Man stelle sich vor, dass jemand eine „bösartige“ Biografie schreibt, sie exportiert und den sich schlecht benehmenden Avatar mit ahnungslosen Moemate-Benutzern teilt.

Als Anspielung auf eine der beabsichtigten Zielgruppen bietet Moemate eine Reihe von Funktionen, die sich auf Twitch konzentrieren – leider konnte ich keine davon testen. Es kann Ihr Chat-Fenster in den Fokus rücken und die Anzahl der Abonnenten Ihres Kanals anzeigen. Und Webaverse bewirbt Moemate damit, dass es in der Lage sei, „Benutzer zu unterhalten und bei der Stange zu halten“, wenn es keine Chat-Nachrichten gibt, oder „Stream-Chat durch Beantwortung von Chat-Nachrichten in Angriff zu nehmen“, obwohl ich frage mich, wie gut es diese Aufgaben bewältigen kann.

Bleiben Sie dabei, Moemate grundlegende Fragen zu stellen, und die Erfahrung wird Sie nicht umhauen. Was seine Top-Level-Fähigkeiten betrifft, ist Moemate dem von Ihnen gewählten Textgenerierungsmodell verpflichtet. (Bezeichnenderweise identifiziert sich Claude zusätzlich zu dem in der Avatar-Biografie erwähnten Namen oft auch als Claude.) Es kann Bilder mithilfe des Open-Source-Stable-Diffusion-Modells generieren, entweder auf Anweisung oder selbstständig, je nach Aufforderung. Aber bei der Fülle an bildgenerierenden Diensten auf dem Markt fühlt sich das wie ein alter Hut an.

Moemate

Bildnachweis: Webaverse

Die Bildschirmaufnahme ist jedoch ein Game-Changer. Webaverse erklärt es so:

Moemate kann Ihren Bildschirm sehen. Es analysiert es und erhält den Kontext. Sie können ihn fragen, was auch immer Sie auf Ihrem Bildschirm tun. Es erspart Ihnen die Mühe, erklären zu müssen, wofür Sie Hilfe benötigen.

Unabhängig vom ausgewählten Textgenerierungsmodell kann Moemate Fragen zu den Fenstern auf dem Bildschirm beantworten, die gerade im Fokus stehen – sei es ein Browser-Tab, ein Einstellungsfenster oder ein Videospiel. Es ist unklar, wie genau die App dies erreicht – nicht jedes Modell kann Bilder als Eingabe akzeptieren – aber Moemate scheint den Text aus jeder Bildschirmaufnahme und jedem Feed zu extrahieren Das zum Modell.

Es ist ein unvollkommenes System. Aber ich habe Moemate erfolgreich verwendet, um Rezepte und Webseiten zusammenzufassen, ohne den Text kopieren und einfügen zu müssen, und um den Kern – oder zumindest eine allgemeine Zusammenfassung – eines komplizierten Themas zu erhalten.

Einmal, als Claude als textgenerierendes Modell ausgewählt war, stellte ich Moemate eine Frage zum macOS-Dashboard „Systemeinstellungen“, das zufällig auf meinem Laptop geöffnet war. Es gab mir einen detaillierten Überblick über die einzelnen Einstellungsregisterkarten (z. B. WLAN, Kontrollzentrum) und deren Bedeutung sowie zusätzlichen Kontext zu der Registerkarte, die ich gerade geöffnet hatte (Datenschutz und Sicherheit).

Neue Informationen? Nicht genau. Aber für jemanden, der sich beispielsweise mit macOS nicht auskennt oder mit den Besonderheiten neuerer Konfigurationsoptionen nicht besonders vertraut ist, würde ich behaupten, dass es sich um einen wirklich umsetzbaren Hintergrund handelt.

In einem anderen Fall, mit GPT-4 als Basismodell, bat ich Moemate, mir zu sagen, was es auf meinem äußerst unordentlichen Desktop „gesehen“ hatte – eine unorganisierte Ansammlung von geschäftlichen und persönlichen Apps auf zwei Dutzend Chrome-Tabs. Der Avatar konzentrierte sich auf die Web-App Google Messages, mit der ich Textnachrichten verschicke – was mich darüber informierte, dass ich anscheinend häufig drei bestimmten Personen Textnachrichten schreibe, die alle namentlich erwähnt wurden.

Und für Spiele scheint Moemate die eine oder andere Google-Suche ersparen zu können. In einem von Webaverse geposteten Demo-Video wird die App gezeigt, die Vorschläge macht, welchen Dota 2-Charakter man wählen sollte – und dann wählt man aus, welche Waffen man für diesen Charakter auswählen sollte.

Aber so aufschlussreich Moemate auch sein kann, es scheitert oft.

Es kann schwierig sein, genau vorherzusagen, worauf die App ihre Aufmerksamkeit richtet. Das Anklicken eines Fensters in den Fokus hat nicht immer den beabsichtigten Effekt; Moemate verweist manchmal unerklärlicherweise auf ein anderes Fenster im Hintergrund oder sieht den Inhalt eines Fensters überhaupt nicht.

Moemate neigt auch dazu, auf bizarre Weise vom Thema abzuweichen. Nachdem er mir einen Überblick über die Systemeinstellungen gegeben hatte, deutete der Assistent nachdrücklich an, dass Datenschutz ein zu „stressiges“ Thema sei, und empfahl mir, stattdessen etwas frische Luft zu schnappen – begleitet von Es. Als ich fragte, wie es zu mir ohne physischen Körper kommen könnte, versprach Moemate, mich auf einen „geistigen Naturspaziergang“ mitzunehmen, und beschrieb dann ausführlich einen Spaziergang an einem imaginären bewaldeten Teich.

Einige der integrierten Befehle von Moemate sind ebenfalls seltsam. Die App kann beispielsweise die Lautstärke von Stimmen anpassen, aber nur es ist Lautstärke – nicht die systemweite Lautstärke. Es kann auch im Internet nach aktuellen Antworten auf Fragen suchen, aber frustrierenderweise nicht für jede Frage. Ich habe im Internet nur nach dem Wetter und nach Trivialitäten wie „Wer ist der aktuelle Präsident der USA?“ gesucht. In anderen Fällen führte Moemate eine Websuche durch, zeigte jedoch keine Ergebnisse an.

Fairerweise muss man sagen, dass es sich um ein experimentelles Produkt in der Betaphase handelt. Aber Webaverse sagt, dass man bereits daran arbeitet, Automatisierungsfunktionen über Browser- und Terminal-Integrationen hinzuzufügen, etwa die Möglichkeit, Tabellenkalkulationen zu organisieren und sogar E-Mails zu versenden – ehrlich gesagt eine leicht beängstigende Aussicht.

Trotz seiner Zerbrochenheit hat Moemate etwas Faszinierendes. Multimodalität oder die Kombination von Text-, Bild- und anderen Medienanalysen ist eindeutig eine leistungsstarke Sache, insbesondere im Kontext eines Assistenten, der auf einem PC ausgeführt wird. Ich bin gespannt, ob Assistenten der nächsten Generation wie der Windows Copilot irgendwann in die Fußstapfen von Moemate treten und Bildschirmverständnis mit einem Textgenerierungsmodell kombinieren, um die Produktivität zu steigern – oder zumindest ein paar Schritte in einem Arbeitsablauf einzusparen.

Wir werden sehen. Aber Moemate scheint ein – wenn auch ziemlich fehlerhafter – Blick in die Zukunft zu sein.

source-116

Leave a Reply