Künstliche Intelligenz, Large Language Model, Semper-KI, Wissenschaftliche Veröffentlichung
Kann ChatGPT Wissensgraphen? Das Experiment
Teil 1/3
Wenn Lars-Peter Meyer und Johannes Frey nebeneinander am Schreibtisch stehen, sind sie kaum zu unterscheiden: Dichtes schwarzes Haar, unauffällige Brillen und skeptische Blicke auf den Bildschirm vor ihnen. Sie werten Ergebnisse aus, die ChatGPT als Antwort auf ihre Tests ausgespuckt hat. Sie wollen wissen, ob ChatGPT dabei helfen kann, Wissensgraphen zu nutzen und zu bauen. Ihr erstes Urteil fällt mäßig aus: “Ohne zusätzliche Bearbeitung sind die Ergebnisse nicht verwendbar. Aber es gibt eine Basis. Das ist gut”, sagt Johannes Frey.
Die beiden Forscher haben die Modelle ChatGPT-3.5 und ChatGPT-4 zunächst manuellen Tests in verschiedenen möglichen Anwendungsbereichen unterzogen. Die untersuchten Anwendungsbereiche lassen sich in zwei Kategorien einteilen: Nutzung von Wissensgraphen und Konstruktion von Wissensgraphen.
Das Ergebnis wurde bei der Leipziger DataWeek 2023 vorgestellt: Um vorhandene Wissensgraphen zu nutzen, kann Chat-GPT eingeschränkt bei der Erstellung von SPARQL-Anfragen aus Text in natürlicher Sprache assistieren. In der Evaluation haben beide Modelle syntaktisch korrekte Anfragen geliefert. Aber es gibt eine deutliche Einschränkung. Durch inhaltliche Fehler waren die Anfragen nicht ohne weitere Bearbeitung auf den untersuchten Wissensgraphen nutzbar.
Die getesteten Sprachmodelle sind außerdem in der Lage, Informationen aus Datenblättern zu extrahieren. Getestet wurde dies an Datenblättern zu 3D-Druckern. Allerdings unterscheiden sich die ausgelesenen Informationen von Fall zu Fall. Sie sind also nicht vollständig und nicht konsistent. Das wäre aber wichtig, denn im Idealfall lassen sich Druckerdaten einheitlich und automatisiert für den Wissensgraphen der Semper-KI generieren.
Insgesamt hat sich gezeigt, dass die getesteten GPT-Modelle nicht fit genug sind, um die Entwicklung von Wissensgraphen per zero-shot prompting (also per einfacher Anfrage) und ohne vorheriges Training auf einem passenden Datenset zu unterstützen. Lars-Peter Meyer und Johannes Frey geben aber nicht auf: Sie tüfteln an einem automatisierten System zur langfristigen Überprüfung von Sprachmodellen. Es heißt LLM-KG-Bench.