ChatGPT – Performance variiert 2023 stark
Chatbot, Large Language Model, Semper-KI, Wissenschaftliche Veröffentlichung

ChatGPT – Performance variiert 2023 stark

Find english version below.

Die Leistungsfähigkeit von einzelnen GPT-Modellen hat 2023 für Workflows im automatisierten RDF-Knowledge Graph Engineering deutlich variiert. Zu diesem Ergebnis kommt eine Forschungsgruppe des Instituts für Angewandte Informatik (InfAI) e.V. an der Universität Leipzig. Wie die Gruppe mitteilte, verschlechterte sich die gemessene Leistungsfähigkeit von neueren Versionen der Modelle GPT-3.5 und GPT-4 über 2023 in einigen Aufgaben im Vergleich zu den jeweiligen Vorgängerversionen. Dagegen war nach Angaben der Forschenden für die Modelle Claude instant, Claude 1.x und Claude 2.x insgesamt eine Verbesserung von späteren zu früheren Versionen zu beobachten. Eine Ausnahme gab es demnach nur in einem Fall. 

Für die Untersuchung wurden den genannten GPT-Modelle insgesamt sechs, den Claude-Modelle insgesamt fünf Testaufgaben aus dem RDF-Knowledge Graph Engineering gestellt: 

  • Task 1: Find a connection between Nodes in Turtle 
  • Task 2: Find syntax errors in Turtle 
  • Task 3: Generate Sample Person Graphs  
  • Task 4: Identify most known Person  
  • Task 5: Extract Data from 3D Printer PDF Factsheet 
  • Task 6: Text2SPARQL 

Die Versionen 6.23 und 11.23 des Modells GPT-3.5 schnitten in fünf von sechs Tests schlechter ab als die Vorgängerversion 3.23. Eine Verbesserung gab es nur bei Task 5, der Datenextraktion aus einer PDF-Datei.  

Für das Modell GPT-4 verbesserte sich die Version 11.23 in vier von sechs Tests im Vergleich zu den Vorgängerversionen 6.23 und 3.23. Schlechter schnitt es bei den Turtle-Aufgaben Task 1 und Task 2 ab. 

Dagegen zeigten alle drei Claude-Modelle insgesamt eine Verbesserung von späteren zu früheren Versionen. Lediglich Claude 1.3 schnitt in Task 5 schlechter ab als die Vorgängerversion 1.2. Bei Task 1 lieferte Claude 2.0 bereits ein perfektes Ergebnis. 

Dass spätere Versionen von GPT-3.5 schlechter abschneiden als frühere liegt der Forschungsgruppe zufolge unter anderem daran, dass die Versionen “gesprächiger” werden. Sie lieferten demnach nicht nur das gewünschte Ergebnis, sondern fügten z.B. Erläuterungen hinzu, welche bei einer automatisierten Verarbeitung der Antwort Probleme bereiten würden. 

Ein Grund dafür kann nach Angaben der Forschungsgruppe das Kostenmodell und die damit verbundene Nutzung von ChatGPT sein. ChatGPT auf Basis von GPT 3.5 ist kostenlos und sei durch mediale Aufmerksamkeit einer breiten Masse bekannt. Diese Nutzerbasis verwende ChatGPT für eine Vielzahl von Aufgaben, die in direkter Interaktion mit den Nutzenden stattfänden. Es sei davon auszugehen, dass das Sprachmodell auf Basis dieser Nutzungsdaten weiterentwickelt worden sei. Die Nutzungsdaten umfassten u.a. Bewertungen für die generierten Antworten. Das kann der Forschungsgruppe zufolge eine Erklärung für die “Gesprächigkeit” sein, die in der Studie aufgefallen ist: Die Antworten sind für Menschen optimiert, nicht für automatisierte Workflows. 

Dagegen hätten die Claude-Modelle in 2023 über deutlich weniger Bekanntheit verfügt und seien zunächst auch nur ausgewählten Testern zugänglich. Entsprechend sei davon auszugehen, dass deutlich weniger Trainingsdaten mit menschlichem Feedback für das Training neuerer Versionen genutzt werden konnten im Vergleich zum GPT-Betreiber OpenAI.

English version:

The performance of individual GPT models varied significantly in 2023 for workflows in automated RDF knowledge graph engineering. This is the conclusion reached by a research group from the Institute for Applied Computer Science (InfAI) at Leipzig University. According to the group, the measured performance of newer versions of the GPT-3.5 and GPT-4 models deteriorated over 2023 in some tasks compared to the respective previous versions. In contrast, according to the researchers, an overall improvement from later to earlier versions was observed for the Claude instant, Claude 1.x and Claude 2.x models. There was therefore only one exception.

For the study, the aforementioned GPT models were given a total of six test tasks from RDF Knowledge Graph Engineering, while the Claude models were given a total of five:

Task 1: Find a connection between nodes in Turtle

Task 2: Find syntax errors in Turtle

Task 3: Generate Sample Person Graphs

Task 4: Identify most known person

Task 5: Extract Data from 3D Printer PDF Factsheet

Task 6: Text2SPARQL

Versions 6.23 and 11.23 of the GPT-3.5 model performed worse than the previous version 3.23 in five out of six tests. There was only an improvement in Task 5, the data extraction from a PDF file. For the GPT-4 model, version 11.23 improved in four out of six tests compared to the previous versions 6.23 and 3.23. Versions 6.23 and 11.23 of the GPT-3.5 model performed worse than the previous version 3.23 in five out of six tests. There was only an improvement in Task 5, the data extraction from a PDF file. For the GPT-4 model, version 11.23 improved in four out of six tests compared to the previous versions 6.23 and 3.23. It performed worse in the Turtle tasks Task 1 and Task 2.

In contrast, all three Claude models showed an overall improvement from later to earlier versions. Only Claude 1.3 performed worse in Task 5 than the previous version 1.2. Claude 2.0 already delivered a perfect result in Task 1.

According to the research group, one of the reasons why later versions of GPT-3.5 perform worse than earlier versions is that the versions become more „talkative“. They therefore not only delivered the desired result, but also added explanations, for example, which would cause problems if the answer was processed automatically.

According to the research group, one reason for this could be the cost model and the associated use of ChatGPT. ChatGPT, based on GPT 3.5, is free of charge and is known to a wide audience thanks to media attention. This user base uses ChatGPT for a variety of tasks that take place in direct interaction with the users. It can be assumed that the language model has been further developed on the basis of this usage data. The usage data included, among other things, ratings for the responses generated. According to the research group, this may explain the „talkativeness“ that was noticeable in the study: the answers are optimised for humans, not for automated workflows.

In contrast, the Claude models were significantly less well known in 2023 and were initially only accessible to selected testers. Accordingly, it can be assumed that significantly less training data with human feedback could be used to train newer versions compared to the GPT operator OpenAI.