Creating medical registry datasets from unstructured text
Le projet vise à automatiser le processus de collecte de données pour les registres cliniques en utilisant de grands modèles de langage (LLM).
Fiche signalétique
- Départements participants Technique et informatique
- Institut(s) Institute for Patient-centered Digital Health (PCDH)
- Unité(s) de recherche PCDH / AI for Health
- Organisation d'encouragement Innosuisse
- Durée (prévue) 17.06.2024 - 17.06.2025
- Direction du projet Prof. Dr. Kerstin Denecke
- Partenaire ID Suisse AG
- Mots-clés Intelligence artificielle, Large Language Model, extraction d’informations
Situation
Ce projet vise à automatiser le processus de collecte de données pour les registres cliniques en utilisant de grands modèles de langage (LLM). Actuellement, 116 registres sont représentés sur la Plateforme suisse des registres médicaux, qui est gérée par la FMH, la Chambre médicale suisse. Les données des registres sont cruciales pour l’assurance qualité (p. ex. le registre des implants), y compris le suivi des évènements et des résultats indésirables et l’identification des lacunes dans le traitement. Ces cas d’application et d’autres cas similaires nécessitent des données complètes et de haute qualité, qu’on retrouve dans des registres. Les méthodes traditionnelles d’extraction de données cliniques à partir de données de routine et de systèmes d’information hospitaliers impliquent un copier-coller manuel des données, un processus long et source d’erreurs, qui aboutit à des données incohérentes et incomplètes. Notre approche vise à automatiser ce processus en développant des algorithmes avancés de traitement du langage naturel (Natural Language Processing, NLP) capables d’analyser et d’extraire avec précision les renseignements cliniques pertinents du texte non structuré typique des dossiers médicaux.
Approche
Nous utiliserons et optimiserons des méthodes basées sur le LLM pour extraire des données cliniques pertinentes de textes non structurés et les remplir dans des formulaires des registres. Nous étudierons également l’évolutivité des méthodes élaboré et en déduirons des moyens de développement, d’évolution et d’amélioration répondant aux besoins du secteur de la santé en pleine mutation et aux progrès technologiques.
Résultat
Le résultat du projet consiste à valider la faisabilité et à estimer la qualité des méthodes fondées sur le LLM pour l’extraction d’informations en vue du remplissage de registres cliniques.