Semper-KI - RML-Mappings mit Claude und GPT erstellen

Large Language Models können dabei helfen, RML-Mappings für Wissensgraphen in der Sprache RDF (Turtle) zu erstellen. Das hat eine Forschungsgruppe der Universität Leipzig und des Instituts für Angewandte Informatik (InfAI) e.V. nachgewiesen. Wie die Gruppe in ihrer Fallstudie mitteilte, können dadurch Kosten gesenkt und Zeit gespart werden. Gleichzeitig bleibt die Möglichkeit erhalten, Mappings manuell zu bearbeiten, bevor ein Wissensgraph gebaut wird.

Nach Angaben der Forschungsgruppe wurde untersucht, ob Mapping-Tools mit Large Language Modellen (LLM) automatisch konfiguriert und in Volumen und Vielfalt skaliert werden können. Dazu wurde die semi-strukturierte Datenbasis IMDB movie data mittels LLMs in RDF überführt, um sie in einen bestehenden Ziel-Wissensgraphen in einer automatisierten Pipeline zu integrieren oder zu fusionieren.

Wie aus der Studie hervorgeht, wurden zwei Claude-Modelle (2.1/3.0) und drei GPT-Modelle (3.5/4Turbo/Gemini Pro) getestet. Pro Modell gab es 40 Durchläufe in vier Schritten (Schaubild):

Überprüfen der RDF-Syntax mit ggf. zwei Reparierversuchen

Überprüfen der Triple-Erzeugung

Verifizieren der Korrektheit der Triples

Überprüfen, ob Mapping auf Ziel-Wissensgraph richtig ist

Dafür waren zwei Prompts nötig: Ein Prompt, um RML-Mappings in RDF zu erzeugen, und ein Prompt, um die RDF-Syntax zu reparieren. Beide Prompts können im Paper eingesehen werden (Link/Bild).

Im Ergebnis zeigt sich nach Angaben der Forschungsgruppe, dass Claude3 Opus und GPT4 ähnliche Fähigkeiten zeigen bei der Generierung von RML-Mappings für ein gegebenes JSON-Daten-Snippet und eine Ziel-Ontologie. Bei der Bewertung der Qualität mit eigenen Metriken schnitt Claude3 Opus (20240229) besser ab als die getestete GPT4T Version (01-25-preview).

Für die Vorgängerversionen Claude 2.1 und GPT3.5T sowie für Gemini-Pro hat sich in der Studie gezeigt, dass die Aufgabe der RML-Generierung zu herausfordernd ist. Während zusätzliche Feedbackschleifen (mit Fehlern und Erklärung der Struktur) die Leistung möglicherweise leicht verbessern könnten, besteht ein großes Problem darin, dass die Modelle keine korrekten Iteratoren definieren können.

Chatbot, Large Language Model, Ontologie, Wissenschaftliche Veröffentlichung

RML-Mappings automatisch konfigurieren: Claude3 Opus und GPT-4 geeignet

Chatbot, Large Language Model, Ontologie, Wissenschaftliche Veröffentlichung

RML-Mappings automatisch konfigurieren: Claude3 Opus und GPT-4 geeignet

Related posts

Large Language Model, Semper-KI, Wissenschaftliche Veröffentlichung

Open Source-LLMs statt ChatGPT: Großes Potential bei Text2SPARQL

Chatbot, Large Language Model, Semper-KI, Wissenschaftliche Veröffentlichung

ChatGPT – Performance variiert 2023 stark

Künstliche Intelligenz, Large Language Model, Ontologie, Semper-KI

LLMs und Ontologien: Die Zukunft des AI Engineering

Künstliche Intelligenz, Large Language Model, Ontologie, Semper-KI

LLMs and Ontologies: The Future of AI

Chatbot, Large Language Model, Semper-KI, Wissenschaftliche Veröffentlichung

Wie Sprachmodelle helfen, Wissensgraphen zu entwickeln: Das Benchmark-Modell

Künstliche Intelligenz, Large Language Model, Semper-KI, Wissenschaftliche Veröffentlichung

Kann ChatGPT Wissensgraphen? Das Experiment

3D-Druck, Large Language Model, Medizin, Semper-KI

Medizinischer 3D-Druck für effiziente Versorgung von Patienten