Large Language Model, Semper-KI, Wissenschaftliche Veröffentlichung
Open Source-LLMs statt ChatGPT: Großes Potential bei Text2SPARQL
Für kleine und mittlere Unternehmen, Forschungseinrichtungen oder den öffentlichen Sektor kann es sich lohnen, bei Large Language Modellen auf Open Source statt auf kommerzielle Lösungen zu setzen. Das hat eine Forschungsgruppe des Instituts für Angewandte Informatik (InfAI) e.V. herausgefunden. Demnach lassen sich kleine und Open Source-Modelle gut als Ersatz für kommerzielle LLMs nutzen, um Text2SPARQL-Aufgaben zu erfüllen. SPARQL ist eine Sprache, um Daten aus Graphen im RDF-Format abzufragen.
Wie aus dem Paper hervorgeht, hat die Forschungsgruppe untersucht, wie gut kleine Sprachmodelle Wissensgraphen lernen können. Hintergrund ist nach Angaben der Forschenden, dass es viele kostenlose, kleine Sprachmodelle gibt, die spezifisch für einen Graph trainiert werden können, um natürliche Sprache in SPARQL-Anfragen zu übersetzen und auf üblicher moderner Hardware laufen. Als Maßstab für übliche Hardware wurden 8GB VRAM angesetzt. Damit können Modelle mit bis zu einer Billion Parametern plus Traingsdaten verarbeitet werden. Getestet wurden folgende LLM-Familien:
- T5
- FLAN-T5
- BART
- M2M100
- MRebel
Diese Modelle wurden auf drei Datensets mit unterschiedlichem Schwierigkeitsgrad trainiert:
- Organisations-Graph (leicht)
- CoyPu Mini-Graph (mittel)
- Wikidata Wissensgraph (schwer)
Im Ergebnis zeigt sich nach Angaben der Forschungsgruppe, dass es nicht einzelne Modelle gibt, die Aufgaben besser lösen als andere. Demnach variieren die Ergebnisse. Am schlechtesten schnitt NLLB-200 ab. Die übrigen Modelle produzierten bis zu 14 von 16 Anfragen richtig.
Für den mittleren Schwierigkeitsgrad schnitten besonders diejenigen Modelle gut ab, die auf mehrsprachigen Datensets trainiert wurden. Mehr als 20 von 26 richtigen SPARQL-Anfragen konnte kein Modell erzeugen.
Für den Wikidata-Graph konnte keine richtige SPARQL-Anfrage erzeugt werden.
Diese Ergebnisse legen der Forschungsgruppe zufolge nahe, dass bestimmte Daten-Eigenschaften zu bestimmten Modellen passen. Für die Wahl eines kleinen oder Open Source-Sprachmodells gibt es demzufolge keine Pauschalantwort. Die Modelle müssen mit besonderem Augenmerk auf den vorliegenden Graphen ausgewählt werden.