Legal NLP: Datensätze und Publikationen zu Künstlicher Intelligenz im Rechtswesen

Das Rechtswesen gründet naturgemäss auf einer korrekten Interpretation und Anwendung von Sprache. In diesem Rahmen drängt sich daher der Einsatz von Sprachmodellen auf, um damit Prozesse effizienter zu gestalten. Aufgrund des sensiblen Anwendungsgebietes ist jedoch spezielle Vorsicht geboten.

Unsere Empfehlungen an den öffentlichen Sektor

  1. Qualitativ hochwertige Datenpflege
    Organisationen sollten qualitativ hoch­ wertige Textdaten mit relevanten Inhalten sammeln. Diese Daten werden die Grund­lage für das  Training von spezifischen, kleinen Sprach modellen sein.
  2. Überprüfung der Rechtlichen Konformität
    Verwaltungen sollten vor dem Einsatz einer Anwendung von Legal NLP sicherstellen, dass diese gemäss den aktuellen rechtlichen Grundlagen ins besondere im Hinblick auf den Datenschutz zulässig ist.
  3. Daten-Anonymisierung
    Gegebenenfalls sollten auch diejenigen Daten anonymisiert werden, die die Grundlage für Sprachmodelle bilden sollen. Dadurch verringert sich das Risiko, dass solche Daten vom Sprachmodell reproduziert werden. Auch bei diesem Schritt können Sprachmodelle Hilfe­leistung stellen.

Die BFH bietet zahlreiche Datensätze und Sprachmodelle für Natural Language Processing (NLP) im Rechtswesen. Diese Encoder-Modelle bieten alle erforderlichen Funktionalitäten für Anwendungen von generativer künstlicher Intelligenz, wie sie etwa bei ChatGPT zum Einsatz kommt. Im Gegensatz zu proprietären Systemen sind sie effizienter in der Umsetzung und Wartung.

Modelle und Datensätze

  1. Model Name: legal-swiss-longformer-base
    This model is a Swiss legal language model based on the Longformer architecture.
  2. Model Name: legal-swiss-roberta-base
    This model is a Swiss legal language model based on the RoBERTa base architecture.
  3. Model Name: legal-swiss-roberta-large
    This model is a Swiss legal language model based on the RoBERTa large architecture.
  4. Model Name: legal-xlm-longformer-base
    This model is a multilingual legal language model based on the Longformer base architecture.
  5. Model Name: legal-xlm-roberta-large
    This model is a multilingual legal language model based on the XLM-RoBERTa large architecture.
  6. Model Name:legal-xlm-roberta-base
    This model is a multilingual legal language model based on the XLM-RoBERTa base architecture.
  7. Model Name:legal-english-longformer-base
    This model is an English legal language model based on the Longformer base architecture
  8. Model Name:legal-english-roberta-base
    This model is an English legal language model based on the RoBERTa base architecture.
  9. Model Name:legal-english-roberta-large
    This model is an English legal language model based on the RoBERTa base architecture.
  10. Model Name:legal-german-roberta-base
    This model is a German legal language model based on the RoBERTa base architecture.
  11. Model Name:legal-german-roberta-large
    This model is a German legal language model based on the RoBERTa large architecture.
  12. Model Name:legal-french-roberta-base
    This model is a French legal language model based on the RoBERTa base architecture.
  13. Model Name:legal-french-roberta-large
    This model is a French legal language model based on the RoBERTa large architecture.
  14. Model Name:legal-italian-roberta-base
    This model is an Italian legal language model based on the RoBERTa base architecture.
  15. Model Name:legal-italian-roberta-large
    This model is an Italian legal language model based on the RoBERTa large architecture.

Publikationen

Swiss-judgment-prediction: A multilingual legal judgment prediction benchmark
The paper introduces a multilingual legal judgment prediction benchmark that includes diverse judgments from the Swiss Federal Supreme Court in three languages.

An empirical study on cross-x transfer for legal judgment prediction
The study explores the transferability of models across different types of legal texts and jurisdictions, showing that fine-tuning can improve performance.

Lextreme: A multi-lingual and multi-task benchmark for the legal domain
The paper presents a multi-lingual, multi-task benchmark for the legal domain, covering a wide range of skills and including diverse legal texts in multiple languages.

ClassActionPrediction: A Challenging Benchmark for Legal Judgment Prediction of Class Action Cases in the US
The paper introduces a challenging benchmark for legal judgment prediction of class action cases in the US, showing that current models struggle on this benchmark.

Can we Pretrain a SotA Legal Language Model on a Budget From Scratch?
The paper introduces a method for cheaply pretraining a state-of-the-art legal language model, demonstrating strong performance on a range of legal NLP tasks.

SCALE: Scaling up the Complexity for Advanced Language Model Evaluation
The paper introduces a method for scaling up the complexity for advanced language model evaluation, providing a more rigorous evaluation for complex domains like law.

MultiLegalPile: A 689GB Multilingual Legal Corpus
The paper introduces a large multilingual legal corpus that improves performance on a range of legal NLP tasks.

MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset
The paper introduces a multilingual legal sentence boundary detection dataset that improves performance on sentence boundary detection in legal texts.

Auf der Plattform «Hugging Face» stehen die Datensätze und Modelle des Instituts Public Sector Transformation der BFH zur Verfügung.