Une fuite de données chez OpenAI repose la question de la responsabilité des données partagées avec ChatGPT.
Quelqu’un m’a dit récemment « En cochant la case ‘ne pas partager mes données’ sur ChatGPT, tu es sûr que tes données resteront confidentielles. ». Je lui ai répondu que l’affirmation d’OpenAI ne valait pas certification de conformité RGPD.
En 2023, une information révélée par le New York Times, indique qu’un hacker est parvenu à pénétrer dans le système de messagerie interne de l’entreprise. En juin 2024, OpenAI a choisi de stocker les conversations en texte clair dans un emplacement non protégé dans macOS (faille corrigée depuis).
En cas de fuite de données révélée, OpenAI serait responsable, mais en premier chef, c’est le « responsable de traitement » qui serait visé par les autorités. Dans ce précis, l’argument “c’est pas moi, c’est lui” ne fonctionne pas !
Ces incidents inévitables prouvent, une fois de plus, que les entreprises et leurs collaborateurs ne doivent pas partager avec les IA, des données personnelles, industrielles protégées et encore mois des données sensibles.
Que faire ? Ne plus utiliser ChatGPT ?
Certainement pas ! Ce serait une plus grosse erreur encore. Il faut essayer d’évaluer les bénéfices et les risques, comme pour un traitement thérapeutique.
Cas n°1 : l’entreprise ne traite pas souvent de données personnelles ou sensibles ou à caractère confidentiel.
Le plus simple est l’anonymisation des données avant partage avec l’IA. Le sens des données sera conservé et l’identification des données sera protégée. Vous obtiendrez le même résultat qu’en ayant partagé les données brutes. L’inconvénient est que cela implique un travail de préparation des données, parfois long et pas totalement infaillible.
Cas n°2 : l’entreprise traite quotidiennement des données personnelles ou sensibles ou à caractère confidentiel.
Le plus sûr est d’installer un ou plusieurs modèles LLM (IA) sur un serveur local de l’entreprise, non connecté à un réseau extérieur. Ainsi, les données restent sur le serveur local et ne sont pas transmises aux serveurs de ChatGPT ou autres IA. L’inconvénient est la mise en place technique de cette solution et l’absence de connexion à Internet pour obtenir certaines réponses récentes.
Des questions ? Un cas particulier ? Parlons-en !