TruthfulLM

	TruthfulLM: Verifying and Ensuring Truthfulness in Large Language Models
	Kontaktperson: Michael Färber, Nicholas Popovic Projektstatus: aktiv

Beschreibung

Dieses Forschungsprojekt konzentriert sich auf die Verbesserung der faktischen Korrektheit von Text, der von Sprachmodellen wie ChatGPT erzeugt wird. Der derzeitige Ansatz zur Verbesserung der Qualität des generierten Textes ist das Reinforcement Learning from Human Feedback (RLHF), das nicht unbedingt auf sachliche Richtigkeit optimiert ist und das Problem der Halluzinationen indirekt angeht. Das Risiko, sich ausschließlich auf RLHF zu verlassen, um bessere Modelle zu entwickeln, besteht darin, dass es unbeabsichtigt Fehlinformationen als legitim erscheinen lässt, anstatt sie zu vermeiden. Daher besteht das zentrale Ziel dieses Projekts darin, Methoden zu entwickeln und zu bewerten, die die Ausgabe von Sprachmodellen kontinuierlich auf faktische Korrektheit überprüfen und eventuelle Ungenauigkeiten automatisch korrigieren. Der vorgeschlagene Ansatz baut auf einem früheren Mikroprojekt von Aleph Alpha und KIT-AIFB auf, bei dem es darum ging, strukturierte Informationen aus einem Text zu extrahieren und sie mit einem Wissensgraphen zu vergleichen, um die Richtigkeit des generierten Textes zu überprüfen. Im Falle von Halluzinationen korrigiert die Methode alle Ungenauigkeiten mit Hilfe von wissensgraphenbasierten Dekodierungsstrategien. Dieser Ansatz kann auf vortrainierte Sprachmodelle ohne weiteres Training angewendet werden, was die Effizienz und Anwendbarkeit deutlich erhöht, da das Training der energie- und kostenintensivste Teil der Modellentwicklung ist.

Involvierte Personen

Michael Färber, Nicholas Popovic

Informationen

von: 1 Juli 2023
bis: 31 Dezember 2023
Finanzierung: BMBF
Vorgängerprojekt(e): KD4RE

Partner

Aleph Alpha

Forschungsgruppe

Web Science

Forschungsgebiet

TruthfulLM (Wissensrepräsentation, Natürliche Sprachverarbeitung, Künstliche Intelligenz)

Publikationen zum Projekt

article

- inproceedings

- book

- incollection

- booklet

- proceedings

- phdthesis

- techreport

- deliverable

- manual

- misc

- unpublished