GPT-4 schnitt bei Augenuntersuchungen nahezu auf dem Niveau von Fachärzten ab


Da Lernsprachenmodelle (LLMs) immer weiter voranschreiten, stellen sich auch Fragen, wie sie der Gesellschaft in Bereichen wie dem medizinischen Bereich zugute kommen können. A Kürzlich durchgeführte Studie von der School of Clinical Medicine der University of Cambridge fanden heraus, dass GPT-4 von OpenAI bei einer ophthalmologischen Beurteilung fast genauso gut abgeschnitten hat wie Experten auf diesem Gebiet. Die Financial Times zuerst berichtet.

In der Studie, veröffentlicht in PLOS Digitale GesundheitDie Forscher testeten das LLM, seinen Vorgänger GPT-3.5, Googles PaLM 2 und Metas LLaMA mit 87 Multiple-Choice-Fragen. Fünf erfahrene Augenärzte, drei angehende Augenärzte und zwei nicht spezialisierte Assistenzärzte erhielten die gleiche Probeprüfung. Die Fragen stammten aus einem Lehrbuch, in dem Auszubildende zu allen Themen von Lichtempfindlichkeit bis hin zu Läsionen getestet wurden. Die Inhalte sind nicht öffentlich zugänglich, daher glauben die Forscher, dass LLMs zuvor nicht auf ihnen geschult werden konnten. ChatGPT, ausgestattet mit GPT-4 oder GPT-3.5, hatte drei Möglichkeiten, definitiv zu antworten, oder seine Antwort wurde als null markiert.

GPT-4 schnitt besser ab als die Auszubildenden und Assistenzärzte und beantwortete 60 der 87 Fragen richtig. Dies lag zwar deutlich über dem Durchschnitt der jungen Ärzte von 37 richtigen Antworten, übertraf jedoch knapp den Durchschnitt der drei Auszubildenden von 59,7. Während ein erfahrener Augenarzt nur 56 Fragen richtig beantwortete, erzielten die fünf eine durchschnittliche Punktzahl von 66,4 richtigen Antworten und übertrafen damit die Maschine. PaLM 2 erzielte einen Wert von 49 und GPT-3.5 einen Wert von 42. LLaMa erzielte mit 28 den niedrigsten Wert und fiel damit unter die jüngeren Ärzte. Insbesondere fanden diese Versuche Mitte 2023 statt.

Obwohl diese Ergebnisse potenzielle Vorteile mit sich bringen, gibt es auch einige Risiken und Bedenken. Die Forscher stellten fest, dass die Studie insbesondere in bestimmten Kategorien eine begrenzte Anzahl von Fragen enthielt, was bedeutete, dass die tatsächlichen Ergebnisse variieren könnten. LLMs neigen auch dazu, zu „halluzinieren“ oder Dinge zu erfinden. Das ist eine Sache, wenn es eine irrelevante Tatsache ist, aber zu behaupten, dass es einen Katarakt oder Krebs gibt, ist eine andere Geschichte. Wie in vielen Fällen der LLM-Nutzung mangelt es den Systemen auch an Nuancen, was weitere Möglichkeiten für Ungenauigkeiten schafft.

source-115

Leave a Reply