Be(e)Chat: Errichtung und Betrieb eines generativen Sprachmodells
Das Projekt Be(e)Chat zielt darauf ab, auf Basis eines lokal betriebenen generativen KI-basierten Modells (GenAI) in der Hochschullandschaft des Kantons Bern, sichere und datenschutzkonforme Anwendungen im Bildungskontext zu ermöglichen.
Factsheet
- Lead school School of Engineering and Computer Science
- Additional schools School of Health Professions
- Institute(s) Institute for Patient-centered Digital Health (PCDH)
- Research unit(s) PCDH / AI for Health
- Funding organisation BFH
- Duration (planned) 15.01.2024 - 15.07.2027
- Project management Prof. Dr. Kerstin Denecke
- Head of project Prof. Dr. Kerstin Denecke
-
Partner
Eidgenössische Technische Hochschule Lausanne (EPFL)
Universität Bern
BeLEARN - Keywords GenAI, generative KI, generatives Sprachmodell, Hochschullehre
Situation
Die stetige Entwicklung und Verbesserung von generativen Sprachmodellen (GenAI) wie GPT-3.5 oder GPT-4 hat die Art und Weise, wie wir mit künstlicher Intelligenz interagieren, revolutioniert. Dennoch birgt die Nutzung solcher durch Fremdanbieter bereitgestellten Modelle im Bildungssektor zahlreiche offene Fragen und Risiken: Woher stammen die Daten? Werden Nutzungsdaten durch Dritte weiterverarbeitet? Weiter ist soziale Gerechtigkeit ein wichtiger Aspekt: Der Zugang zu fortschrittlichen generativen Tools kostet bereits jetzt teilweise. Künftig könnten einkommensschwache Studierende dadurch benachteiligt werden. Zudem werden bestehende Bias in Trainingsdaten nach wie vor in den Modellen abgebildet. Diese Verzerrungen können bei Closed-Source-Modellen wie GPT-4 nicht selbstständig identifiziert und korrigiert werden. Oft bleibt auch unklar, woher die Daten stammen, die zum Trainieren des Sprachmodells verwendet wurden. Die Veröffentlichung von Open-Source-Modellen, wie Llama-2 und Code Llama, bietet Bildungseinrichtungen die Chance, eigene Modelle bereit zu stellen. Das bedeutet volle Kontrolle und Datenhoheit; die Daten bleiben lokal und deren Weiterverwendung ist steuer- und kontrollierbar. Dies bietet Sicherheit und die Möglichkeit, Chancengleichheit für alle sicherzustellen: So kann z.B. die Verwendung eines Hochschul-internen Tools auf Basis eines sicheren Sprachmodells erlaubt, die Verwendung anderer und kostenpflichtiger Tools jedoch verboten werden.
Course of action
Das aufgebaute Modell wird in einem Chat-Interface ähnlich wie ChatGPT verfügbar gemacht und kann so im Bildungskontext verwendet werden. Die Datensicherheit soll gewahrt und mögliche Bias kontrolliert werden, was den Ansatz von verfügbaren kommerziell betriebenen Sprachmodellen und Services abgrenzt. Perspektivisch erlaubt ein solches Modell auch, weitere Anwendungen zu entwickeln, die generative KI benötigen. Das Projekt untersucht die Vor- und Nachteile eines lokal betriebenen Sprachmodells, wie ein vorhandenes Modell an die Bedürfnisse einer Bildungsinstitution angepasst werden kann und welche ethischen, rechtlichen und Nachhaltigkeits-Aspekte zu beachten sind. Die Ergebnisse dieses Vorhabens werden in Lieferobjekten festgehalten, einschliesslich eines Hosting-Konzepts und einer Anleitung zur Wartung des Modells. Die erarbeiteten Ergebnisse werden als Open Educational Resources (OER) auf der Plattform «Bildung 6.0» veröffentlicht und können als Grundlage für zukünftige Forschungsprojekte und Implementierungen dienen.
Looking ahead
Parallel zum Aufbau des Sprachmodells wird im Rahmen eines BeLEARN geförderten Boosterprojekts ein Modell zu KI-Kompetenzen in der Hochschullehre erarbeitet mit spezifischem Fokus auf generative KI-Tools mit Chatkomponente. Das Modell wird Lehrenden eine klare Struktur zur Verfügung stellen, um die Technologien in ihre Lehrmethoden und -inhalte zu integrieren. Sie können die eigenen Kompetenzen in Bezug auf generative KI gezielt weiterentwickeln und innovative Lehransätze zur Gestaltung effizienter Lernprozesse entwickeln.