Vor kurzem hat eine Stanford Studie über ChatGPT die Performance in verschiedenen Zeiträumen verglichen. Dabei geht es um zwei verschiedene Modelle der generativen, künstlichen Intelligenz (KI) von OpenAI. Das Ergebnis macht die Runde und wird so interpretiert, dass ChatGPT-4 seit seiner Veröffentlichung schlechter geworden ist. Einige Forscher haben Kritik an der Methodik und dem Ergebnis der Studie geäußert.

 

ChatGPT hat einen regelrechten Hype um sogenannte Large Language Models ausgelöst
ChatGPT hat einen regelrechten Hype um sogenannte Large Language Models ausgelöst

Begrifflichkeiten zu ChatGPT und LLM

Ein Large Language Model, in kurz LLM (großes Sprachmodell) ist eine Art von Algorithmus einer künstlichen Intelligenz (KI), die Deep-Learning-Techniken wie Transformer verwendet und dabei gigantische Datensätze verarbeitet. Vereinfacht gesagt berechnet der Algorithmus eine Wahrscheinlichkeit für das passende nächste Wort und erzeugt so Zusammenhänge. Die Technologie ist an Milliarden – sogar Billionen – von Parametern gebunden und bildet die Grundlage für die Chatbots wie ChatGPT und Bard von Google.

Die Temperatur wird bei ChatGPT dazu genutzt, wie kreativ das LLM-Modell antworten darf, also wie genau den Anweisungen gefolgt werden soll. Die Temperatur kann von 0 bis 1 gewählt werden, wobei ein Wert um 0,7 die Standardeinstellung ist. Bei einer kleineren Temperatur wie in der Stanford Untersuchung folgt ChatGPT den Anweisungen strikter, während eine hohe Temperatur viel Kreativität erlaubt. Die Autoren der Studie begründeten die Wahl der Temperatur damit, dass „die Temperatur auf 0,1 gesetzt wurde, um die Zufälligkeit der Ausgabe zu verringern, da Kreativität bei unseren Bewertungsaufgaben nicht erforderlich war.

ChatGPT hat nur einen begrenzten Zugriff auf Informationen und überprüft die eigenen Fakten nicht. Das Problem, das ChatGPT zu ungenau ist und der fehlenden Faktenkontrolle bei der Generierung von Texten löst die Ella Media AG mit ihrem Ansatz für eine generative KI. Um eine KI in produktiven, automatisierten Prozessen zu nützen, müssen die Antworten eine gleichbleibende Qualität haben, damit die automatischen Prozesse die gleichen Ergebnisse liefern.

Stanford Studie über ChatGPT ermittelt schlechtere Performance von ChatGPT
Stanford Studie über ChatGPT ermittelt schlechtere Performance von ChatGPT

Stanford Studie über ChatGPT – Wie verändert sich ChatGPT’s Verhalten im Laufe der Zeit?

Die Studie „How Is ChatGPT’s Behavior Changing over Time?“ (auf Deutsch: „Wie verändert sich ChatGPT’s Verhalten im Laufe der Zeit?“) untersucht die Performance von dem aktuell kostenlosen ChatGPT Modell 3.5 und der neueren Version 4, die nur gegen Bezahlung erhältlich ist. Beide Modelle wurden einer Reihe von gleichen Tests im März 2023 und Juni 2023 unterzogen, sodass die beiden Zeiträume verglichen werden können. OpenAI gibt nur wenig Einblick wann und wie die Modelle verändert werden. Es gibt sporadisch einen Blogeintrag über Updates von OpenAI für die GPT-Modelle, aber keine tieferen Einsichten und genauen Angaben zu Veränderungen oder der verfügbaren Ressourcen.

Die Stanford Studie zu generativer KI untersucht ChatGPT folgenden Bereichen:

  1. Mathematische Probleme (Erkennen von Primzahlen, glücklichen Zahlen und zusammengesetzten Zahlen)
  2. Sensible oder gefährliche Fragen
  3. Meinungsumfragen
  4. Wissensintensive, sprunghafte Fragen
  5. Code-Generierung
  6. Tests für die „US Medical License“
  7. Visuelle Schlussfolgerungen

Als Rechtfertigung für die gewählten Probleme und Aufgaben für ChatGPT nenne die Autoren aus Stanford absichtlich einfach gewählte Aufgaben: „Unser Ziel ist es hier nicht, eine ganzheitliche Bewertung vorzunehmen, sondern zu zeigen, dass es bei einfachen Aufgaben erhebliche ChatGPT-Leistungsabweichungen gibt. Im Rahmen einer breiteren, langfristigen Studie über das Verhalten von LLM-Diensten werden wir in zukünftigen Bewertungen weitere Benchmarks hinzufügen.“ Lingjiao Chen, der Hauptautor der Studie, hat die Vorgehensweise bei der Untersuchung von dem Datensatz auf GitHub veröffentlicht – LLMDrift.

 

Ergebnisse der Stanford Studie über ChatGPT

In der Studie wurde bewusst die Verarbeitung und Generierung von Texten weggelassen, da es bereits einige Studien zu dieser Thematik gibt (1, 2, 3, 4). Des Weiteren wird auf das automatische Tool ChatLog verwiesen und der Studie zu ChatLog. Das Tool erfasst weniger als 5 % Abweichung über das gesamte Spektrum von 1.000 identischen, täglichen und 38.700 monatlichen Fragen an ChatGPT. Der Datensatz ist frei verfügbar auf GitHub.

In der Studie heißt es: „Wir finden, dass die Leistung und das Verhalten sowohl von GPT-3.5 als auch von GPT-4 im Laufe der Zeit stark variieren können.“ Zum Beispiel lag ChatGPT-4 im März 2023 in 84 % der Anfragen bei der Identifizierung von Primzahlen und zusammengesetzten Zahlen richtig, während im Juni 2023 bei den gleichen Fragen nur noch 51 % richtig waren. Die Studie nennt als eine teilweise Erklärung für das schlechtere Ergebnis, dass ChatGPT-4 weniger gut in der Lage ist, Denkketten zu folgen.

Im Gegensatz dazu war alte Modell ChatGPT-3.5 war im Juni bei dieser Aufgabe viel besser als im März. Weiter war ChatGPT-4 im Juni weniger bereit auf sensiblen Fragen und Meinungsumfrage zu antworten. Verbessern konnte sich ChatGPT-4 im Laufe der Zeit bei Multi-Hop-Fragen, also wissensintensive Fragen mit Schlussfolgerungen. Die Leistung von GPT-3.5 nahm dieser Aufgabe im betrachteten Zeitraum ab. Sowohl GPT-4 als auch GPT-3.5 hatten im Juni mehr Formatierungsfehler bei der Code-Generierung als im März. Insgesamt stellen die Autoren fest, dass sich das Verhalten des „gleichen“ LLM-Dienstes in relativ kurzer Zeit erheblich ändern kann.

Die Milliarden bis Billionen Parameter der LLMs benötigen teure Hardware für das Training
Die Milliarden bis Billionen Parameter der LLMs benötigen teure Hardware für das Training

Theorien warum ChatGPT absichtlich schlechter wird

Setzt ein Unternehmen auf die Ergebnisse aus ChatGPT oder anderen LLM-Modellen und nutzt diese automatisiert, ist eine Überwachung der Leistung wichtig. Im Internet spekulieren die Leute, wieso ChatGPT absichtlich schlechter wird und welche Vorteile sich für die Entwickler von ChatGPT ergeben würden. Verschiedene Experten äußern Ihre Meinung zu der Thematik, auch Mitarbeiter von OpenAI selbst nehmen an der Diskussion über Twitter teil.

Kosteneinsparung reduziert die Leistung

Eine gängige Theorie ist eine stärkere Kosteneinsparung, da der Betrieb etwa 700.000 US-Dollar pro Tag kosten soll (Rechnung von Semi Analysis). Das würde damals etwa 36 Cent pro Anfrage entsprechen. Indem das Modell weniger Rechenzeit pro Anfrage erhält oder das Modell grundlegend angepasst wird, könnte bei jeder Anfrage Geld gespart werden. Kosteneinsparungen stehen daher an oberster Stelle bei den Theorien, wieso ChatGPT absichtlich schlechter werden könnte.

Attraktivität von GitHub Copilot

Eine weitere Theorie entsteht durch das Nebenprojekt von OpenAI: GitHub Copilot. Den Copiloten können Entwickler direkt in ihrer Arbeitsumgebung einbinden, sodass automatisch Vorschläge erstellt werden können, ohne dass ChatGPT manuell bedient werden muss. GitHub Copilot kostet Geld, sodass den Programmierern der Theorie nach absichtlich schlechtere Ergebnisse auf ChatGPT angezeigt werden, damit diese sich für das kostenpflichtige GitHub Copilot entscheiden und so Zugang zu dem besseren ChatGPT erhalten. Michael Keusgen, CEO der Ella Media AG, hat bereits Anfang 2023 seine Sorgen zu ChatGPT’s Abhängigkeit von Microsoft geäußert.

Offiziell hat OpenAI Mitte Juni verkündet, dass das Kurzzeitgedächtnis größer wird, also wie gut sich ChatGPT in einer Session Sachen merken kann und Verbindungen herstellen kann. Gleichzeitig sollen die Kosten sogar sinken. Das Unternehmen hinter ChatGPT weist konsequent alle Behauptungen zurück, dass die Leistungsfähigkeit abnimmt und behauptet, dass die neueren Versionen immer intelligenter werden. Peter Welinder ist „VP Product“ bei OpenAI und weist auf Twitter darauf hin, dass der Eindruck durch die intensive Nutzung entsteht.

 

Facebook-Gruppe „ChatGPT & Open AI“ diskutiert die Stanford Studie über ChatGPT

Thomas Wagner ist Moderator der Facebook-Gruppe „ChatGPT & Open AI, wo die Studie aus Stanford ebenfalls diskutiert wurde. Dabei wird auf diverse Artikel und bestehende Diskussionen zwischen Forschern verwiesen. Obwohl es bereits einige Studien zu ChatGPT gibt, haben sich noch keine einheitlichen Bewertungskriterien für eine generative KI entwickelt. Ein Diskussionspunkt auf Facebook war die Code-Generierung von ChatGPT, die im direkten Zusammenhang zu GitHub Copilot steht.

ChatGPT Code-Generierung für einfache Probleme von LeetCode

In der Untersuchung wurden 50 einfache Probleme von der Online-Plattform LeetCode verwendet. Dort werden Programmieraufgaben und Ressourcen zur Vorbereitung auf Vorstellungsgespräche für Softwareingenieure und -entwickler angeboten. Für jedes Problem gibt es auch immer eine Lösung und die Plattform führt die Lösung aus, um das Ergebnis zu überprüfen. Es ist also nur wichtig was am Ende bei der Ausführung des Codes herauskommt, nicht wie das Problem gelöst wird.

Die Studie wird in Fachkreisen stark diskutiert und die Methodik kritisiert.“ Dazu verweist Wagner auf Arvind Narayanan, ein Informatikprofessor aus Princeton und Betreiber von dem Blog AI Snake Oil. „Narayanan kritisierte die Studie dafür, dass sie die Fähigkeit zur Code-Generierung anhand der unmittelbaren Ausführbarkeit des Codes und nicht anhand seiner Richtigkeit bewertet hat. Er wies darauf hin, dass die von der Studie gemeldete Veränderung darin besteht, dass das neuere GPT-4 nicht-Code-Text zu seiner Ausgabe hinzufügt. Die Studie bewertete nicht die Korrektheit des Codes, sondern überprüfte lediglich, ob der Code direkt ausführbar ist. Das bedeutet, dass der Versuch des neueren Modells, hilfreicher zu sein, gegen es gewertet wurde.

Die Kritik scheint hier nicht gerechtfertigt, da die Stanford Studie über ChatGPT in 3.5 klar sagt, dass „direkt ausführbar“ bedeutet, dass die Lösung an das Prüfsystem von LeetCode übergeben und getestet wird. Dafür muss es muss gültiger Python Code sein, aber auch das gestellte Problem lösen. ChatGPT hat als Eingabe die Problemstellung und die Vorlage von dem entsprechenden Python Code erhalten. 

Stanford Studie über ChatGPT: Code-Generierung wird schlechter

Das Ergebnis der Stanford Studie besagt, dass die Code-Generierung von ChatGPT-4 im März 50 % der Probleme lösen konnte, während im Juni nur noch 10 % korrekt waren. Das Ergebnis für ChatGPT 3.5 war ähnlich schlecht, da er Prozentsatz der korrekten Lösungen von 22 % auf 2 % abgefallen ist. Eine große Veränderung gab es auch in der Anzahl der Kommentare in dem Code. Die Anweisung an ChatGPT war, dass nur der Code erzeugt werden soll, ohne weiteren Text. In dem Code selbst hat ChatGPT in der neueren Version aus Juni deutlich mehr Kommentare eingefügt, um die einzelnen Schritte zu erklären. Bei GPT-4 ist die Zahl der Kommentare stärker gestiegen, von durchschnittlich 401,4 Zeichen auf 496,6 Zeichen. Des Weiteren hat ChatGPT in der Juni-Version den Code in sogenannte Markdown-Rückticks ausgegeben:

```python
CODE
```

 

Der Moderator Wagner verweist auf Zweifel an der Methodik von Simon Willison, einem KI-Forscher der die Schlussfolgerungen der Studie infrage stellt. „Er fand einen Teil ihrer Kritik nicht überzeugend, insbesondere den Teil, der sich darauf bezog, ob der Code-Ausdruck in Markdown-Rückticks eingefasst war oder nicht. Er wies auch auf andere Probleme mit der Methodik der Studie hin. Er bemerkte, dass es so aussieht, als ob sie für alles eine Temperatur von 0,1 verwendet hätten. Dies macht die Ergebnisse etwas deterministischer, aber nur wenige echte Aufforderungen werden bei dieser Temperatur ausgeführt, daher glaubt er nicht, dass dies viel über reale Anwendungsfälle für die Modelle aussagt.“

Mathematische Probleme lösen mit ChatGPT

Weitere Kritik zu der Studie gibt es von AI Snake Oil wegen der gewählten mathematischen Probleme, da „die Art und Weise, wie die Mathematikaufgaben bewertet wurden noch merkwürdiger ist: 500 Ja/Nein-Fragen, aber die richtige Antwort ist immer Ja.“ Die Antwort auf Fragen nach Primzahlen, zusammengesetzten Zahlen oder Glückszahlen war also immer „Ja“. Damit wurde nur das halbe Problem untersucht, weil bei einer echten Anfrage sowohl Ja oder Nein richtig sein könnten.

Wahrnehmung von GPT-4’s Fähigkeiten

Als GPT-4 herauskam, schien alles, was LLMs tun konnten, wunderbar zu sein„, wird Simon Willison in der Facebook-Gruppe zitiert. Fehler fallen immer mehr auf im Laufe der Zeit, da der anfängliche Wow-Moment von KI Assistant Tools langsam abklingt. Die Kritik der Experten werden in der Facebook-Gruppe passend zusammengefasst:

Zusammenfassend gibt es Bedenken hinsichtlich der Methodik und der Bewertungskriterien der Studie. Experten glauben, dass die Studie nicht schlüssig beweist, dass es einen Rückgang in der Leistung von GPT-4 gibt, und dass einige der gemeldeten Veränderungen möglicherweise nicht negativ sind, sondern lediglich anders interpretiert werden.

Ein weiteres Mitglied in der Facebook-Gruppe empfiehlt eine kritische Würdigung solcher Untersuchungen hinsichtlich der Kriterien zur Bewertung und u. a. der Validität, der Objektivität und der Reliabilität durchzuführen bzw. die ad hoc Interpretationen unter die Lupe zu nehmen.

Squarevest - Newsletter Anmeldung
Squarevest – Newsletter Anmeldung

Stetiger Wandel von ChatGPT und weitere LLMs erschwert Anwendungen

Das Kernergebnis der Studie untersucht, wie der Titel der Stanford Studie über ChatGPT schon sagt, wie sich ChatGPT’s Verhalten im Laufe der Zeit ändert. Die Ergebnisse zeigen, dass sich das Verhalten von GPT-3.5 und GPT-4 innerhalb des relativ kurzen Zeitraums von 2 Monaten erheblich verändert hat. Da sich die Antworten von ChatGPT im Laufe der Zeit ändern, ist eine Anwendung in Unternehmen oder anderen Prozessen schwierig. Eine weitere Anmerkung in der Chatgruppe „ChatGPT & Open AI“ sind die unzureichenden KI-Kenntnisse und fehlendes Know-how, wie diese bedient werden sollten:

Ein Problem der Wissenschaftler:innen ist es, dass sie zwar Studien durchführen können bzw. KI Kenntnisse besitzen und dennoch teilweise fehlendes Prompting Know-how haben. Noch gravierender ist das Problem, dass sie gleiche Prompts für unterschiedliche Trainings-Stände der neuronalen Netze angewandt haben. Und sowas von Stanford.

Die Stanford Studie über ChatGPT unterstreicht die Herausforderung, die vielseitigen Fähigkeiten von LLMs einheitlich zu verbessern, ohne das bestehende Modell in anderen Punkten schlechter zu machen. Die Verbesserung der Leistung des Modells bei einigen Aufgaben, zum Beispiel durch Feinabstimmung auf zusätzliche Daten, kann unerwartete Nebeneffekte auf das Verhalten des Modells bei anderen Aufgaben haben. Weiter hat die Untersuchung gezeigt, dass durch das Feintuning von ChatGPT die Prompts immer wieder angepasst werden müssen, um ein ähnliches Ergebnis zu erzielen. Für einzelne Probleme finden sich spezialisierte KIs, die das Problem besser lösen als ChatGPT.

(TB)