KI könnte die Sichtweise blinder Menschen auf die Welt verändern


Für ihren 38 An ihrem Geburtstag machten Chela Robles und ihre Familie einen Ausflug zu One House, ihrer Lieblingsbäckerei in Benicia, Kalifornien, um ein Brisket-Sandwich und Brownies zu essen. Auf der Autofahrt nach Hause tippte sie auf einen kleinen Touchscreen an ihrer Schläfe und fragte nach einer Beschreibung der Welt draußen. „Ein bewölkter Himmel“, kam die Antwort durch ihre Google Glass zurück.

Mit 28 Jahren verlor Robles die Sehfähigkeit auf dem linken Auge und ein Jahr später auf dem rechten Auge. Blindheit, sagt sie, verweigert einem kleine Details, die Menschen dabei helfen, miteinander in Kontakt zu treten, etwa Gesichtsausdrücke und Gesichtsausdrücke. Ihr Vater zum Beispiel erzählt viele trockene Witze, sodass sie nicht immer sicher sein kann, ob er es ernst meint. „Wenn ein Bild 1.000 Wörter sagen kann, stellen Sie sich vor, wie viele Wörter ein Ausdruck sagen kann“, sagt sie.

Robles hat in der Vergangenheit Dienste ausprobiert, die sie mit sehenden Menschen verbinden, um Hilfe zu erhalten. Doch im April meldete sie sich für eine Testversion von Ask Envision an, einem KI-Assistenten, der GPT-4 von OpenAI verwendet, ein multimodales Modell, das Bilder und Text aufnehmen und Konversationsantworten ausgeben kann. Das System ist eines von mehreren Hilfsprodukten für sehbehinderte Menschen, die mit der Integration von Sprachmodellen beginnen und verspricht, den Benutzern weitaus mehr visuelle Details über die Welt um sie herum zu bieten – und viel mehr Unabhängigkeit.

Envision wurde 2018 als Smartphone-App zum Lesen von Text in Fotos und Anfang 2021 auf Google Glass eingeführt. Anfang dieses Jahres begann das Unternehmen mit dem Testen eines Open-Source-Konversationsmodells, das grundlegende Fragen beantworten konnte. Dann integrierte Envision OpenAIs GPT-4 für Bild-zu-Text-Beschreibungen.

Be My Eyes, eine 12 Jahre alte App, die Benutzern hilft, Objekte in ihrer Umgebung zu identifizieren, hat im März GPT-4 eingeführt. Microsoft – ein wichtiger Investor in OpenAI – hat mit dem Integrationstest von GPT-4 für seinen SeeingAI-Dienst begonnen, der ähnliche Funktionen bietet, so Sarah Bird, verantwortliche KI-Leiterin bei Microsoft.

In seiner früheren Version hat Envision den Text in einem Bild von Anfang bis Ende vorgelesen. Jetzt kann es Text in einem Foto zusammenfassen und Folgefragen beantworten. Das bedeutet, dass Ask Envision jetzt eine Speisekarte lesen und Fragen zu Preisen, Ernährungseinschränkungen und Dessertoptionen beantworten kann.

Richard Beardsley, ein weiterer Ersttester von Ask Envision, sagt, dass er den Dienst normalerweise nutzt, um beispielsweise Kontaktinformationen auf einer Rechnung zu finden oder Zutatenlisten auf Lebensmittelkartons zu lesen. Dank der Freisprechfunktion über Google Glass kann er es nutzen, während er die Leine seines Blindenhundes und einen Gehstock hält. „Früher konnte man nicht zu einer bestimmten Stelle im Text springen“, sagt er. „Das macht das Leben wirklich viel einfacher, weil man direkt zu dem springen kann, was man sucht.“

Die Integration von KI in Produkte mit sehendem Auge könnte tiefgreifende Auswirkungen auf die Benutzer haben, sagt Sina Bahram, eine blinde Informatikerin und Leiterin eines Beratungsunternehmens, das Museen, Themenparks und Technologieunternehmen wie Google und Microsoft in Bezug auf Barrierefreiheit und Inklusion berät.

Bahram verwendet Be My Eyes mit GPT-4 und sagt, dass das große Sprachmodell aufgrund seiner Fähigkeiten und weil Produkte mühelos verwendet werden können und keine technischen Fähigkeiten erfordern, einen „Größenordnungs“-Unterschied zu früheren Technologiegenerationen macht. Vor zwei Wochen, sagt er, sei er in New York City die Straße entlanggelaufen, als sein Geschäftspartner stehen geblieben sei, um sich etwas genauer anzusehen. Bahram nutzte Be My Eyes mit GPT-4, um zu erfahren, dass es sich um eine Sammlung von Aufklebern handelte, einige davon im Cartoon-Stil, dazu etwas Text und einige Graffiti. Dieser Informationsstand sei „etwas, das es vor einem Jahr außerhalb des Labors noch nicht gab“, sagt er. „Es war einfach nicht möglich.“

source-114

Leave a Reply