Utiliser l’IA sur des documents contenant des données personnelles : pseudo-anonymisation des CVs

QuickieAI

16/09/2025 | 09h30 - 09h55 | JEMS

Informations

La mission d’Hellowork est d’aider chacun à trouver l’opportunité professionnelle qui lui convient. Pour cela, nos algorithmes analysent des milliers de CVs chaque jour, et l’IA est un allié incontournable dans ce processus. Cependant, un CV regorge de données personnelles, et nous avons à cœur de les protéger. Comment concilier ces deux impératifs : utiliser la puissance de l’IA pour une analyse plus fine et performante, tout en garantissant la protection des informations sensibles de nos utilisateurs et en se conformant au règlement RGPD ?    Nous avons fait le choix de pseudo-anonymiser nos datasets de CVs afin de pouvoir entrainer des modèles de machine learning et de pérenniser des jeux de non-régression dans le temps. Nous présenterons comment tirer parti de deux librairies open-source pour mettre en place un pipeline de traitement des données : GLINER pour identifier les données personnelles, et Faker pour générer des remplacements qui ont du sens. Le défi étant de préserver des caractéristiques clés des documents telles que la mise en forme et la distribution des variables importantes dans nos datasets.