Les modèles d’apprentissage profond sont largement utilisés dans divers domaines, allant du diagnostic médical aux prévisions financières. Toutefois, ces modèles nécessitent une puissance de calcul considérable, souvent fournie par des serveurs cloud puissants.
Cette dépendance au cloud computing soulève des préoccupations de sécurité, notamment dans le secteur de la santé, où les hôpitaux peuvent être réticents à utiliser des outils d’IA pour analyser des données sensibles de patients en raison de problèmes de confidentialité.
Pour répondre à ce problème, des chercheurs du MIT ont mis au point un protocole de sécurité qui utilise les propriétés quantiques de la lumière pour garantir la sécurité des données transmises vers et depuis un serveur cloud lors des calculs d’apprentissage profond.
En codant les données dans la lumière laser utilisée dans les systèmes de communication par fibre optique, le protocole exploite les principes fondamentaux de la mécanique quantique, rendant impossible toute interception ou copie des informations sans détection.
Cette technique assure la sécurité sans compromettre la précision des modèles d’apprentissage profond. Lors de tests, les chercheurs ont démontré que leur protocole pouvait maintenir une précision de 96 % tout en garantissant des mesures de sécurité robustes.
« Les modèles d’apprentissage profond comme GPT-4 possèdent des capacités sans précédent mais nécessitent d’énormes ressources informatiques. Notre protocole permet aux utilisateurs de tirer parti de ces modèles puissants sans compromettre la confidentialité de leurs données ou la nature exclusive des modèles eux-mêmes », explique Kfir Sulimany, postdoctorant au MIT au Research Laboratory for Electronics (RLE) et auteur principal d’un document de référence sur ce protocole de sécurité.
Sulimany a collaboré avec Sri Krishna Vadlamani, postdoctorant au MIT ; Ryan Hamerly, ancien postdoctorant chez NTT Research, Inc. ; Prahlad Iyengar, étudiant diplômé en génie électrique et informatique (EECS) ; et Dirk Englund, professeur à l’EECS et chercheur principal du groupe de photonique quantique et d’intelligence artificielle et de RLE. La recherche a été présentée lors de la conférence annuelle sur la cryptographie quantique.
Une double voie pour la sécurité dans le deep learning
Le scénario de calcul basé sur le cloud étudié par les chercheurs implique deux parties : un client avec des données confidentielles, comme des images médicales, et un serveur central qui contrôle un modèle d’apprentissage profond.
Le client souhaite utiliser le modèle d’apprentissage profond pour faire une prédiction, par exemple, déterminer si un patient a un cancer, sans révéler d’informations sur le patient.
Dans ce contexte, les données sensibles doivent être transmises pour générer une prédiction, tout en restant sécurisées tout au long du processus.
De plus, le serveur ne veut pas révéler de parties du modèle propriétaire qu’une entreprise comme OpenAI a mis des années et des millions de dollars à développer.
« Les deux parties ont quelque chose à cacher », ajoute Vadlamani.
En informatique numérique, un acteur malveillant pourrait facilement copier les données envoyées depuis le serveur ou le client. En revanche, l’information quantique ne peut pas être parfaitement copiée. Les chercheurs exploitent cette propriété, connue sous le nom de principe de non-clonage, dans leur protocole de sécurité.
Pour leur protocole, le serveur code les poids d’un réseau neuronal profond dans un champ optique à l’aide de la lumière laser.
Un réseau de neurones est un modèle d’apprentissage profond composé de couches de nœuds interconnectés, ou neurones, qui effectuent des calculs sur les données. Les poids sont les composants du modèle qui effectuent les opérations mathématiques sur chaque entrée, une couche à la fois. La sortie d’une couche est transmise à la couche suivante jusqu’à ce que la couche finale génère une prédiction.
Le serveur transmet les poids du réseau au client, qui effectue des opérations pour obtenir un résultat basé sur ses données privées, tout en protégeant ces données du serveur.
Simultanément, le protocole de sécurité permet au client de mesurer un seul résultat et l’empêche de copier les poids en raison de la nature quantique de la lumière.
Une fois que le client transmet le premier résultat à la couche suivante, le protocole est conçu pour annuler la première couche afin que le client ne puisse rien apprendre d’autre sur le modèle.
« Au lieu de mesurer toute la lumière entrante en provenance du serveur, le client mesure uniquement la lumière nécessaire au fonctionnement du réseau neuronal profond et transmet le résultat à la couche suivante. Ensuite, le client renvoie la lumière résiduelle au serveur pour des contrôles de sécurité », explique Sulimany.
En raison du théorème de non-clonage, le client applique inévitablement de minuscules erreurs au modèle lors de la mesure de son résultat. Lorsque le serveur reçoit la lumière résiduelle du client, il peut mesurer ces erreurs pour déterminer si des informations ont été divulguées. Il est important de noter que cette lumière résiduelle ne révèle pas les données du client.
Un protocole pratique
Les équipements de télécommunications modernes s’appuient généralement sur des fibres optiques pour transférer les informations en raison de la nécessité de prendre en charge une bande passante massive sur de longues distances. Étant donné que cet équipement intègre déjà des lasers optiques, les chercheurs peuvent coder les données en lumière pour leur protocole de sécurité sans matériel spécial.
Lors de tests, les chercheurs ont découvert que leur approche pouvait garantir la sécurité du serveur et du client tout en permettant au réseau neuronal profond d’atteindre une précision de 96 %.
La petite quantité d’informations sur le modèle qui fuit lorsque le client effectue des opérations représente moins de 10 % de ce dont un adversaire aurait besoin pour récupérer toute information cachée. En travaillant dans l’autre sens, un serveur malveillant ne pourrait obtenir qu’environ 1 % des informations dont il aurait besoin pour voler les données du client.
« Vous pouvez être assuré qu’il est sécurisé dans les deux sens : du client au serveur et du serveur au client », déclare Sulimany.
« Il y a quelques années, lorsque nous avons développé notre démonstration de l’inférence d’apprentissage automatique distribué entre le campus principal du MIT et le laboratoire Lincoln du MIT, je me suis rendu compte que nous pouvions faire quelque chose d’entièrement nouveau pour assurer la sécurité de la couche physique, en nous appuyant sur des années de travail sur la cryptographie quantique qui avaient également été montrées sur ce banc d’essai », dit Englund. « Cependant, de nombreux défis théoriques profonds ont dû être surmontés pour voir si cette perspective d’apprentissage automatique distribué garantissant la confidentialité pouvait être concrétisée. Cela n’est pas devenu possible jusqu’à ce que Kfir rejoigne notre équipe, car Kfir comprenait de manière unique les composants expérimentaux et théoriques pour développer le cadre unifié qui sous-tend ce travail. »
À l’avenir, les chercheurs souhaitent étudier comment ce protocole pourrait être appliqué à une technique appelée apprentissage fédéré, dans laquelle plusieurs parties utilisent leurs données pour former un modèle central d’apprentissage profond. Il pourrait également être utilisé dans des opérations quantiques, plutôt que dans les opérations classiques étudiées pour ce travail, ce qui pourrait offrir des avantages en termes de précision et de sécurité.
« Ces travaux combinent de manière astucieuse et intrigante des techniques issues de domaines habituellement peu rencontrés, notamment le deep learning et la distribution de clés quantiques. En utilisant les méthodes de cette dernière, il ajoute une couche de sécurité à la première, tout en permettant ce qui semble être une mise en œuvre réaliste. Cela peut être intéressant pour préserver la confidentialité dans les architectures distribuées. J’ai hâte de voir comment le protocole se comporte face aux imperfections expérimentales et sa mise en pratique », déclare Eleni Diamanti, directrice de recherche CNRS à Sorbonne Université à Paris, qui n’a pas participé à ces travaux.
Ce travail a été soutenu, en partie, par le Conseil israélien pour l’enseignement supérieur et le programme de leadership Zuckerman STEM.