2ème année de BTS – Stage

Mon second stage de BTS s’est déroulé du 7 janvier 2019 au 22 février 2019 au sein de la STIME, service informatique du groupement Les Mousquetaires dont fait partie Intermarché.

Contexte

Le Règlement Général sur la protection des données est entré en vigueur le 25 mai 2018 et instaure l’anonymisation des données à caractère personnel (DCP) comme une des procédures à mettre en place dans les entreprises afin de protéger la vie privée de leurs clients.

Ma Mission

Anonymiser la base de données d’intégration copié quotidiennement sur la base de production afin de rentrer en conformité avec les recommandations stipulés dans le considérant 26 du RGPD

Les principaux enjeux pour l'entreprise

Risque d’image et risque business :

  • La divulgation ou le vol de données ont des impacts sur la confiance des clients et l’image de l’entreprise, surtout en cas de perte de données (comme son portefeuille client) qui pourrait dégrader les relations d’affaires
  • Exemple : l’étude IBM/Ponemon Institute a démontrer sur un échantillon de 350 entreprises le coût d’une violation des données, estimé à un total de 3,62 millions de dollars
  • La non-conformité au RGPD représente un désavantage concurrentiel, l’entreprise n’étant pas “privacy-compliant” voit son image dégradée face à ses concurrents.
  • Exemple : Fnac Direct a reçu un avertissement public de la CNIL à la suite d’une conservation de données bancaires sans sécurisation.

Risque juridique :

  • A la suite d’un contrôle menant à constater des manquements significatifs au RGPD, la CNIL peut mettre en demeure (publique selon les circonstances) l’organisme avant de sanctionner
  • Article 83 : selon les manquements, jusqu’à 20 millions d’euros ou 4% du chiffre d’affaires annuel, le montant le plus élevé étant retenu

Situation de l'entreprise

Définition du concept d'anonymisation et de pseudonymisation

L’anonymisation est une opération qui consiste à transformer une donnée personnelle, en y retirant l’ensemble des informations directement ou indirectement identifiantes par l’ensemble des moyens susceptibles d’être mis en œuvre.

Cela implique donc que le traitement soit irréversible mais permet à l’entreprise de se libérer de ses obligations sur ces jeux de données.

La pseudonymisation, à la différence, est un processus réversible qui consiste à séparer les données de leur propriétaire pour que le lien ne soit fait qu’avec une information supplémentaire (clé de décryptage, table de correspondance…).

Elle n’est cependant pas reconnue comme un moyen d’anonymisation car elle permet simplement de réduire la corrélation d’un ensemble de données avec l’identité originale d’une personne concernée et constitue une mesure de sécurité utile.

Les solutions techniques étudiées

PostgreSQL Anonymizer

PostgreSQL Anonymizer est une extension qui permet de masquer et/ou de substituer des données dans les bases PostgreSQL.

Avec actuellement 18 fonctions prédéfinies, elle exploite la technique de substitution “aléatoire-mais-plausible” en s’appuyant sur l’aléatoire et les fichiers CSV afin d’anonymiser définitivement des données telles que :

  • Données génériques : date, date bornée, entier borné, chaine de n caractères
  • Données personelles : nom, prénom, email, numéro de téléphone, code postal, ville, région, pays
  • Données d’entreprise : nom d’entreprise, IBAN, SIRET, SIREN

Elle permet aussi d’utiliser un système de “masking” des données, en exploitant les définitions des tables afin d’appliquer les fonctions de brouillage et de substitution des données sans pour autant altérer les données d’origine

ARX Data Anonymization Tool

ARX est un logiciel open source d’anonymisation des données, disponible sous format graphique ou sous forme de librairie Java, utilisable comme API.

Il permet de récupérer des jeux de données par connexion à une base de données (Oracle, MSSql, MySQL, SQLite, PostgreSQL) avec JDBC ou par extraction dans un fichier CSV ou Excel.

Il permet de catégoriser et de transformer les données selon de nombreux modèles de transformation (échantillonnage, généralisation) et de confidentialité (k-anonymat, l-diversité, t-proximité).

Après l’anonymisation, il met à disposition des outils d’analyse sur l’utilité des attributs, les risques de ré-identification, les attributs à transformer tout en permettant d’ajuster les paramètres des modèles utilisés.

Architecture de la solution

Des résultats différents à chaque utilisation

Exemple d'utilisation

Vous pouvez consulter mon compte-rendu afin d’obtenir des informations plus détaillées en cliquant ci-dessous