ChatGPT V4 übertrifft die Messlatte, SATs und kann Exploits in ETH-Verträgen identifizieren

GPT-4, die neueste Version des Chatbots mit künstlicher Intelligenz (KI), ChatGPT, kann High-School-Tests und Juraprüfungen mit Ergebnissen im 90. Perzentil bestehen und verfügt über neue Verarbeitungsfunktionen, die mit der vorherigen Version nicht möglich waren.

Die Zahlen aus den Testergebnissen von GPT-4 waren geteilt Am 14. März von seinem Schöpfer OpenAI enthüllt, dass es auch Bild-, Audio- und Videoeingaben in Text umwandeln kann und außerdem „viel nuanciertere Anweisungen“ kreativer und zuverlässiger handhabt.

„Es besteht eine simulierte Anwaltsprüfung mit einer Punktzahl von etwa den besten 10 % der Testteilnehmer“, fügte OpenAI hinzu. „Im Gegensatz dazu lag die Punktzahl von GPT-3.5 bei den unteren 10 %.“

Die Zahlen zeigen, dass GPT-4 im 88. Perzentil der LSAT-Prüfung eine Punktzahl von 163 erzielte – die Studenten des Testcolleges müssen in den Vereinigten Staaten bestehen, um an der juristischen Fakultät zugelassen zu werden.

Prüfungsergebnisse von GPT-4 und GPT-3.5 bei einer Reihe aktueller US-Prüfungen. Quelle: OpenAI

Die Punktzahl von GPT4 würde es in eine gute Position bringen, um in eine der Top 20 der juristischen Fakultät aufgenommen zu werden, und liegt nur wenige Punkte hinter der gemeldet Noten, die für die Zulassung zu renommierten Schulen wie Harvard, Stanford, Princeton oder Yale erforderlich sind.

Die vorherige Version von ChatGPT erzielte beim LSAT nur 149 Punkte und gehört damit zu den unteren 40 %.

GPT-4 erzielte auch 298 von 400 Punkten im Uniform Bar Exam – einem Test, der von kürzlich graduierten Jurastudenten durchgeführt wurde, der es ihnen ermöglicht, als Anwalt in jeder US-Gerichtsbarkeit zu praktizieren.

UBE-Ergebnisse mussten in jeder US-Gerichtsbarkeit als Rechtsanwalt zugelassen werden. Quelle: Nationale Konferenz der Anwaltsprüfer

Die alte Version von ChatGPT hatte in diesem Test Probleme und landete mit einer Punktzahl von 213 von 400 in den unteren 10 %.

Bei den Prüfungen SAT Evidence-Based Reading & Writing und SAT Math, die von US-amerikanischen Highschool-Schülern abgelegt wurden, um ihre College-Bereitschaft zu messen, erreichte GPT-4 das 93. bzw. 89. Perzentil.

GPT-4 zeichnete sich auch in den „harten“ Naturwissenschaften aus und erzielte weit überdurchschnittliche Perzentilwerte in AP Biologie (85–100 %), Chemie (71–88 %) und Physik 2 (66–84 %).

Prüfungsergebnisse von GPT-4 und GPT-3.5 bei einer Reihe aktueller US-Prüfungen. Quelle: OpenAI.

Sein AP Calculus-Score war jedoch ziemlich durchschnittlich und rangierte im 43. bis 59. Perzentil.

Ein weiterer Bereich, in dem GPT-4 fehlte, waren Prüfungen zur englischen Literatur, bei denen in zwei separaten Tests Ergebnisse im 8. bis 44. Perzentil veröffentlicht wurden.

OpenAI sagte, dass GPT-4 und GPT-3.5 diese Tests aus den Übungsprüfungen 2022-2023 abgelegt haben und dass „kein spezifisches Training“ von den Sprachverarbeitungstools absolviert wurde:

„Wir haben für diese Prüfungen kein spezielles Training absolviert. Eine Minderheit der Probleme in den Prüfungen wurde vom Modell während des Trainings gesehen, aber wir glauben, dass die Ergebnisse repräsentativ sind.“

Die Ergebnisse lösten auch in der Twitter-Community Angst aus.

Verwandt: Wie wirkt sich ChatGPT auf den Web3-Bereich aus? Antworten der Industrie

Nick Almond, der Gründer von FactoryDAO erzählt seinen 14.300 Twitter-Followern am 14. März, dass GPT4 „Menschen Angst machen“ und das globale Bildungssystem „kollabieren“ wird.

Der frühere Direktor von Coinbase, Conor Grogan, sagte, er habe einen Live-Ethereum-Smart-Vertrag in GPT-4 eingefügt und sofort auf mehrere „Sicherheitslücken“ hingewiesen und skizziert, wie der Code ausgenutzt werden kann:

Frühere Smart-Contract-Audits auf ChatGPT ergaben, dass die erste Version auch in der Lage war, Code-Bugs in angemessenem Umfang zu erkennen.

Rowan Cheung, der Gründer des KI-Newsletters „The Rundown“, hat ein Video geteilt, in dem GPT eine handgezeichnete gefälschte Website auf einem Blatt Papier in Code transkribiert.