Chatbot, Large Language Model, Ontologie, Wissenschaftliche Veröffentlichung
RML-Mappings automatisch konfigurieren: Claude3 Opus und GPT-4 geeignet
Large Language Models können dabei helfen, RML-Mappings für Wissensgraphen in der Sprache RDF (Turtle) zu erstellen. Das hat eine Forschungsgruppe der Universität Leipzig und des Instituts für Angewandte Informatik (InfAI) e.V. nachgewiesen. Wie die Gruppe in ihrer Fallstudie mitteilte, können dadurch Kosten gesenkt und Zeit gespart werden. Gleichzeitig bleibt die Möglichkeit erhalten, Mappings manuell zu bearbeiten, bevor ein Wissensgraph gebaut wird.
Nach Angaben der Forschungsgruppe wurde untersucht, ob Mapping-Tools mit Large Language Modellen (LLM) automatisch konfiguriert und in Volumen und Vielfalt skaliert werden können. Dazu wurde die semi-strukturierte Datenbasis IMDB movie data mittels LLMs in RDF überführt, um sie in einen bestehenden Ziel-Wissensgraphen in einer automatisierten Pipeline zu integrieren oder zu fusionieren.
Wie aus der Studie hervorgeht, wurden zwei Claude-Modelle (2.1/3.0) und drei GPT-Modelle (3.5/4Turbo/Gemini Pro) getestet. Pro Modell gab es 40 Durchläufe in vier Schritten (Schaubild):
- Überprüfen der RDF-Syntax mit ggf. zwei Reparierversuchen
- Überprüfen der Triple-Erzeugung
- Verifizieren der Korrektheit der Triples
- Überprüfen, ob Mapping auf Ziel-Wissensgraph richtig ist
Dafür waren zwei Prompts nötig: Ein Prompt, um RML-Mappings in RDF zu erzeugen, und ein Prompt, um die RDF-Syntax zu reparieren. Beide Prompts können im Paper eingesehen werden (Link/Bild).
Im Ergebnis zeigt sich nach Angaben der Forschungsgruppe, dass Claude3 Opus und GPT4 ähnliche Fähigkeiten zeigen bei der Generierung von RML-Mappings für ein gegebenes JSON-Daten-Snippet und eine Ziel-Ontologie. Bei der Bewertung der Qualität mit eigenen Metriken schnitt Claude3 Opus (20240229) besser ab als die getestete GPT4T Version (01-25-preview).
Für die Vorgängerversionen Claude 2.1 und GPT3.5T sowie für Gemini-Pro hat sich in der Studie gezeigt, dass die Aufgabe der RML-Generierung zu herausfordernd ist. Während zusätzliche Feedbackschleifen (mit Fehlern und Erklärung der Struktur) die Leistung möglicherweise leicht verbessern könnten, besteht ein großes Problem darin, dass die Modelle keine korrekten Iteratoren definieren können.