Open Justice

Ouvrir la jurisprudence par la pseudonymisation des données

  • Justice

  • Promotion 3

Cour de cassation

Paris

Data science, Développement

L’équipe


La Cour de cassation
, en lien avec le Ministère de la Justice, souhaite développer des techniques d’apprentissage automatique afin d’identifier les données à pseudonymiser dans les décisions de justice avant de les rendre accessibles et réutilisables. Les résultats de ces travaux transformeront en profondeur la diffusion de la jurisprudence, renforceront la cohérence des décisions rendues et la confiance des citoyens en l’autorité judiciaire ; ils pourront largement s’appliquer à d’autres types de données.

Open Justice : Ouvrir la jurisprudence en développant des solutions fiables de pseudonymisation et d’enrichissement des décisions de justice

La problématique

La diffusion en open data de l’ensemble des décisions de justice est une obligation de la Loi pour une République numérique. De surcroît, elle constitue un enjeu essentiel d’accès à la jurisprudence -pour les acteurs du droit et de la justice comme pour les citoyens- et de réutilisations de celle-ci -notamment pour les entrepreneurs de la legal tech.

Chaque année sont rendues près de 3,9 millions de décisions de justice qui pourraient, à terme, être mises à disposition du public. A ce jour, 180 000 décisions par an sont collectées dans les bases de données « Jurinet » et « Jurica » tenues par la Cour de cassation. Cependant, sur ces 180 000 décisions, moins de 15 000 sont diffusées en open data et sur le site Légifrance. La cause : chaque décision doit être relue pour s’assurer que toutes les mentions identifiantes ont été anonymisées.

Le défi : développer des solutions fiables de pseudonymisation et d’enrichissement des données

L’obstacle majeur à une diffusion plus massive des décisions de justice réside dans la complexité des opérations visant à protéger les données personnelles et à éliminer les risques de réidentification des personnes citées dans ces décisions. L’objectif est donc double : « pseudonymiser » efficacement les décisions de justice en occultant les éléments identifiants qu’elles contiennent (noms, adresses, dates de naissance…) et faciliter la réutilisation des données grâce à l’enrichissement des données et à leur mise à disposition en open data.

Pour y parvenir, le défi s’articulera autour de plusieurs axes :

  • l’amélioration des techniques de reconnaissance automatique pour passer d’une approche par règles des termes à anonymiser à une approche par apprentissage automatique (preuves de concept déjà développées sur l’identification de la structure des décisions de justice, leur thème et les éléments à occulter) ;
  • le développement d’algorithmes de pseudonymisation automatique des données : grâce à des techniques de machine learning et de traitement du langage naturel ;
  • le développement d’algorithmes visant à limiter le risque de réidentification et le nombre de décisions “mal” pseudonymisées ;
  • l’enrichissement des données en vue de leur diffusion en open data grâce à des métadonnées précises et structurées ;
  • la construction d’outils et d’interfaces à destination des équipes de la Cour de cassation en charge de la pseudonymisation et de la diffusion des décisions de justice.

Les résultats de ces travaux pourront largement bénéficier à d’autres types de données devant être pseudonymisées avant leur diffusion. Ils transformeront en profondeur la diffusion de la jurisprudence et renforceront la cohérence des décisions rendues et la confiance des citoyens en l’autorité judiciaire.

Rétrospective

Améliorer l’action publique à l’aide de la data science, l’exemple du défi Open Justice