Vertraust du KI bei deinenSchriftsätzen?

Zusammen untersuchen wir mit BenGER (Benchmark for German Law), wie viel Vertrauen tatsächlich gerechtfertigt ist. Dafür bauen wir ein umfassendes Evaluierungsframework für LLMs im deutschen Recht. Mach mit!

Loslegen

Noch kein Konto? Konto erstellen

Über BenGER

BenGER ist eine Open-Source-Webplattform, die Aufgabenerstellung, kollaborative Annotation, konfigurierbare LLM-Ausführung und Evaluierung mit lexikalischen, semantischen, faktischen und Judge-basierten Metriken in einem durchgängigen Workflow vereint. Sie ist so konzipiert, dass Fachexperten die gesamte Benchmarking-Pipeline ohne Programmierung bedienen können.

Kollaborative Annotation

Eine kollaborative Weboberfläche, die mehrere Aufgabenformate unterstützt: Freitext-Argumentation, Multiple Choice und Span-Annotation. Qualitätsmonitoring mit Fortschrittsverfolgung und Übereinstimmungsindikatoren ermöglicht es Projektleitern, zuverlässige menschliche Baselines systematisch aufzubauen.

Konfigurierbare LLM-Ausführung

Führen Sie beliebige LLMs auf Ihren Aufgaben aus -- mit konfigurierbaren API-Schlüsseln pro Benutzer oder Projekt. Unterstützt alle großen Modellanbieter einschließlich OpenAI, Anthropic, Google und Open-Source-Modelle über eine skalierbare Hintergrund-Ausführungspipeline.

Standardisierte Evaluierung

Ergebnisse werden mit einem breiten Satz von Metriken evaluiert: lexikalisch, semantisch, faktisch, klassifikationsbasiert und LLM-as-a-Judge. Alle Metrikkonfigurationen werden als explizite, überprüfbare Artefakte für transparente Berichterstattung und Reproduzierbarkeit gespeichert.

Multi-Organisations-Kollaboration

Konzipiert für kollaborative Forschung zwischen Universitäten, öffentlichen Einrichtungen und NGOs. Mandantenisolierung und rollenbasierte Zugriffskontrolle ermöglichen feingranulares Teilen ohne organisationsübergreifenden Datenverlust.

Formatives Feedback

Annotatoren können optional LLM-basiertes, referenzgestütztes Feedback erhalten, das fehlende Argumentationsschritte und häufige Fehler hervorhebt -- zur Verbesserung des Lernwerts und der Annotationsqualität, während die Expertenaufsicht die Kontrolle behält.

Open Source & Erweiterbar

Veröffentlicht als freie Open-Source-Software, lokal oder institutionell einsetzbar. Die Metrik- und Modellintegrationsschichten sind für schrittweise Erweiterung konzipiert -- neue Aufgaben, Anbieter oder Bewertungsmethoden können ohne Neuschreiben von Pipelines hinzugefügt werden.

Aktuelle News & Publikationen

Bleiben Sie auf dem Laufenden über unsere neueste Forschung, Publikationen und Projektneuigkeiten.

News

BenGER Benchathon 2026

Der erste BenGER Benchathon findet am 14.–15. März 2026 in Zusammenarbeit mit dem Legal Tech Verband statt. Studierende und Juristen lösen Aufgaben und sammeln Punkte auf einem Leaderboard.

2026-02-25Weiterlesen →

News

BenGER Plattform-Update und Roadmap

Die BenGER-Plattform ist fertiggestellt und ermöglicht es fachlichen Laien — typischerweise Berufsjuristen — schnell eigene Benchmarks aus eigenen Dokumenten zu erstellen, um die Leistung von KI-Tools zu bewerten.

Organisation

Legal Tech Verband / Liquid Legal Institute

Netzwerk & Partner

Technische Universität München

Lehrstuhl für Legal Technology

Daimler Benz Stiftung

Förderung von Exzellenz in Wissenschaft und Bildung

TU Braunschweig

Technische Universität Braunschweig

Universität Konstanz

University of Konstanz

Universität des Saarlandes

Saarland University

Universität Freiburg

Albert-Ludwigs-Universität Freiburg

Universität Göttingen

Georg-August-Universität Göttingen

Legal Tech Verband (LTV)

Deutscher Legal Tech Verband

Noxtua

Kooperationspartner

Lizenz & Zitation

Wie Sie unsere Arbeit nutzen und zitieren.

CC-BY Lizenz

Unsere Arbeit ist unter Creative Commons Namensnennung (CC-BY) lizenziert. Sie dürfen das Material für jeden Zweck teilen und anpassen, solange eine angemessene Namensnennung erfolgt.

Zitierweise

Bitte verwenden Sie die passende Zitation, je nachdem ob Sie sich auf die Plattform oder den Benchmark-Datensatz beziehen.

BenGER Plattform

t.b.a.

BenGER Benchmark-Datensatz

t.b.a.