Word, Excel, PDF – in all diesen Formaten kommen Beschaffungsdaten daher. Und das ist bei weitem nicht die einzige Herausforderung, denn neben dem Inhalt sind auch Umfang und Strukturierung in jeder Ausschreibung anders.
Unsere Empfehlungen für den öffentlichen Sektor
1. Testdaten kuratieren
Damit geprüft werden kann, wie gut die Umwandlung von unstrukturierten Beschaffungsdaten in ein strukturiertes Format funktioniert, ist es wichtig, einen Teil der Daten manuell in das gewünschte Format zu überführen. Damit können künftige Extraktionsmethoden evaluiert und miteinander verglichen werden.
2. Verschiedene Modelle evaluieren
Nicht jeder Schritt muss ein LLM involvieren. Idealerweise wird die Lokalisierung der Information von der Extraktion getrennt und für jede Aufgabe wird geprüft, welches Modell oder welche Methode die Aufgabe am besten lösen kann.
3. Expertenwissen einfliessen lassen
Für gute Resultate ist eine intelligente Extraktion unabdingbar. Indem Expertenwissen in Prompts einfliesst, können Sprachmodelle die Daten besser verstehen und diese entsprechend strukturieren.