Stage-oe-small.jpg

TruthfulLM

Aus Aifbportal
Wechseln zu:Navigation, Suche
Transparent.png

TruthfulLM: Verifying and Ensuring Truthfulness in Large Language Models


Kontaktperson: Michael FärberNicholas Popovic





Projektstatus: aktiv


Beschreibung

Dieses Forschungsprojekt konzentriert sich auf die Verbesserung der faktischen Korrektheit von Text, der von Sprachmodellen wie ChatGPT erzeugt wird. Der derzeitige Ansatz zur Verbesserung der Qualität des generierten Textes ist das Reinforcement Learning from Human Feedback (RLHF), das nicht unbedingt auf sachliche Richtigkeit optimiert ist und das Problem der Halluzinationen indirekt angeht. Das Risiko, sich ausschließlich auf RLHF zu verlassen, um bessere Modelle zu entwickeln, besteht darin, dass es unbeabsichtigt Fehlinformationen als legitim erscheinen lässt, anstatt sie zu vermeiden. Daher besteht das zentrale Ziel dieses Projekts darin, Methoden zu entwickeln und zu bewerten, die die Ausgabe von Sprachmodellen kontinuierlich auf faktische Korrektheit überprüfen und eventuelle Ungenauigkeiten automatisch korrigieren. Der vorgeschlagene Ansatz baut auf einem früheren Mikroprojekt von Aleph Alpha und KIT-AIFB auf, bei dem es darum ging, strukturierte Informationen aus einem Text zu extrahieren und sie mit einem Wissensgraphen zu vergleichen, um die Richtigkeit des generierten Textes zu überprüfen. Im Falle von Halluzinationen korrigiert die Methode alle Ungenauigkeiten mit Hilfe von wissensgraphenbasierten Dekodierungsstrategien. Dieser Ansatz kann auf vortrainierte Sprachmodelle ohne weiteres Training angewendet werden, was die Effizienz und Anwendbarkeit deutlich erhöht, da das Training der energie- und kostenintensivste Teil der Modellentwicklung ist.


Involvierte Personen
Michael FärberNicholas Popovic


Informationen

von: 1 Juli 2023
bis: 31 Dezember 2023
Finanzierung: BMBF
Vorgängerprojekt(e): KD4RE


Partner

Aleph Alpha


Forschungsgruppe

Web Science


Forschungsgebiet

TruthfulLM (Wissensrepräsentation, Natürliche Sprachverarbeitung, Künstliche Intelligenz)





Publikationen zum Projekt
article
 - inproceedings
 - book
 - incollection
 - booklet
 - proceedings
 - phdthesis
 - techreport
 - deliverable
 - manual
 - misc
 - unpublished