Training eines Swiss Long Legal BERT Modells

Wir werden juristische Texte in deutscher, französischer und italienischer Sprache scrapen, um ein Schweizer Long Legal BERT-Modell zu trainieren, das NLP-Aufgaben in der Schweizer Rechtsdomäne besser erfüllen kann.

Fiche signalétique

Départements participants Gestion
Institut(s) Institute for Public Sector Transformation
Unité(s) de recherche Digital Sustainability Lab
Organisation d'encouragement Autres
Durée (prévue) 15.12.2021 - 31.12.2022
Direction du projet Joël Niklaus
Équipe du projet Alperen Bektas
Veton Matoshi
Partenaire Schweizerisches Bundesgericht

Situation

Wir sehen eine klare Forschungslücke darin, dass BERT-Modelle, die lange mehrsprachige Texte verarbeiten können, derzeit noch zu wenig erforscht sind (Lücke 1). Außerdem gibt es unseres Wissens nach noch kein mehrsprachiges juristisches BERT-Modell (Lücke 2). Tay et al. 2020b stellen einen Benchmark für die Bewertung von BERT-ähnlichen Modellen vor, die lange Eingaben verarbeiten können, und kommen zu dem vorläufigen Schluss, dass BigBird Zaheer et al., 2020 die derzeit leistungsfähigste Variante ist.

Approche

Wir planen daher, ein BERT-ähnliches Modell (wahrscheinlich BigBird) auf mehrsprachige Langtexte vorzutrainieren, um die erste Forschungslücke zu schließen. Um die zweite Lücke zu schließen, planen wir, dieses Modell mit mehrsprachigen Rechtstexten weiter zu trainieren Gururangan et al., 2020 .

Training eines Swiss Long Legal BERT Modells

Fiche signalétique

Situation

Approche

Contact

Joël Niklaus

Ce projet contribue aux objectifs de développement durable suivants

Liens