La cybersécurité à l’épreuve de l’IA générative

10 juillet 2023|W. Perry Wortman

Alors que les entreprises technologiques utilisent depuis longtemps l’intelligence artificielle dans leurs produits, le lancement d’outils tels que ChatGPT et DALL-E par OpenAI signifie que l’IA générative est maintenant accessible à toute personne disposant d’un ordinateur ou d’un smartphone, y compris les acteurs malveillants.

Les chercheurs en IA et les experts en cybersécurité ont commencé à sonder les plates-formes d’IA générative à la recherche de vulnérabilités en matière de sécurité. Le règlement général sur la protection des données (RGPD) de l’UE a également défini des dispositions autour de l’IA générative, tout ceci au nom de la protection des données des individus et de la prévention des cybermenaces.

Comme pour toute technologie en évolution rapide, l’IA générative a suscité de nombreuses questions sur la sécurité de nos données. En réalité, ces outils qui ne cessent de modifier la façon dont nous opérons en tant qu’entreprises ou particuliers, ont également suscité des préoccupations en matière d’éthique et de sécurité de l’emploi.

Voici ce qu’il faut garder à l’esprit lorsque vous naviguez dans ce nouveau paysage technologique peu familier.

En quoi consistent l’IA générative et les grands modèles de langage (LLM) ?

L’IA générative est une forme de machine learning qui permet aux utilisateurs de saisir une requête dans un langage simple et de générer du texte, des codes, des images, du contenu audio et des vidéos en quelques secondes. OpenAI, un laboratoire de recherche en intelligence artificielle, a développé deux des outils d’IA générative les plus importants : DALL-E, qui crée des images en fonction des requêtes des utilisateurs, et ChatGPT, le chatbot le plus avancé au monde. ChatGPT est capable de répondre aux requêtes de recherche et de générer du texte sous forme de scripts de films, de poésie ou de code. Il est également classifié comme un modèle de traitement du langage naturel ou un grand modèle linguistique (LLM), ce qui signifie qu’il a été formé sur un ensemble massif de données qui comprend des sites Web, des livres et des articles. Cela permet à ChatGPT d’identifier les modèles afin de faire des prédictions et d’adopter une approche étrangement humaine lors de la résolution des problèmes et pour répondre aux questions.

Un gift représentant le résultat de ChatGPT-4 lorsqu'il est invité à répondre à la question suivante : « Quelle est la différence entre une faille de données et une cyberattaque ? » ChatGPT fournit rapidement une réponse, résumant que toutes les failles de données sont traitées comme des cyberattaques, mais toutes les cyberattaques n'impliquent pas des failles de données, car une faille de données implique spécifiquement des informations confidentielles.

ChatGPT est loin d’être la seule plate-forme offrant une IA générative accessible. Des entreprises telles que Bard de Google ou Bing AI de Microsoft laissent entendre que le marché est en constante évolution et devient de plus en plus compétitif.

Quelles sont les préoccupations éthiques autour de l’IA générative ?

Imaginez : une bande-annonce pour Le Seigneur des Anneaux dans le style de Wes Anderson. Drake qui rappe sur des paroles de Ice Spice. Les vœux de mariage étonnamment succincts et intelligents de votre époux.

Encore récemment, la création de tels contenus nécessitait beaucoup de temps, de ressources et de compétences. Désormais, grâce aux outils d’IA générative, les idées que l’on a laissées de côté peuvent prendre vie en un clin d’œil et sans effort : il suffit d’une invite textuelle.

L’IA générative est basée sur des « données de formation », qui peuvent inclure tout contenu accessible au public et tout code source ouvert : les œuvres d’art téléchargées, les recherches sur Google et les forums publics sont tout à fait acceptables. Lorsque l’IA générative produit de « nouveaux » contenus, elle exploite les données de formation ; dans ce cas, il s’agit des contenus, originaux créés par des artistes, des écrivains et des développeurs.

Certaines entreprises ont récemment été critiquées pour avoir utilisé des contenus produits par l’IA générative à des fins lucratives ou même pour avoir remplacé des créateurs de confiance par des outils d’IA générative. Cette évolution du secteur échappe largement à la réglementation, ce qui explique que certains créateurs et développeurs soient lésés.

Il n’est pas facile d’empêcher les grands modèles linguistiques d’utiliser votre propriété intellectuelle. La société musicale Universal Music Group (UMG), par exemple, a demandé que les services de streaming n’exploitent plus le travail de ses artistes – qui incluent Drake, Ariana Grande et Taylor Swift – pour les données de formation en IA. Des plates-formes telles qu’Apple Music et Spotify n’ont pas encore répondu, tandis que le Bureau américain du droit d’auteur affirme qu’il sollicitera les commentaires du public dans le cadre de son initiative pour examiner les lois et les politiques actuelles en matière de droits d’auteur entourant l’IA.

Certains artistes utilisent l’IA générative pour améliorer leur propre travail, mais beaucoup ont souligné que cela équivaut à voler d’autres créateurs. Récemment, un photographe documentaire a déclenché un débat au sein de l’industrie lorsqu’il a utilisé l’IA pour créer un projet de photojournalisme sur les réfugiés cubains. Alors que les progrès de l’IA rendent plus difficile encore le discernement entre les vraies photographies et les images générées par l’IA, les critiques se demandent comment cela affectera la validité et l’éthique de la photographie documentaire.

Comment l’IA générative affecte-t-elle la sécurité en ligne ?

Les utilisateurs ont trouvé des solutions aux restrictions de sécurité en place pour les outils d’IA générative, permettant aux plates-formes telles que ChatGPT de produire des contenus nuisibles ou des codes malveillants.

Récemment, WIRED a rendu compte des recherches sur les « attaques indirectes par injection », qui sont possibles avec les LLM. Les chercheurs en cybersécurité et en IA ont testé les vulnérabilités des plates-formes d’IA génératives telles que ChatGPT et les plugins associés pour démontrer la capacité de lier des instructions cachées et malveillantes aux requêtes des utilisateurs afin que la plate-forme effectue des actions non souhaitées par l’utilisateur. Dans un exemple, un chercheur a intégré une commande cachée dans la transcription d’une vidéo YouTube. Lorsque ChatGPT a été invité à résumer la vidéo, le bot a également dit une blague qui ne faisait pas partie de la vidéo. Bien que les exemples actuels soient inoffensifs, les experts estiment que des personnes mal intentionnées pourraient exploiter ces vulnérabilités pour mener des attaques malveillantes par injection de données.

Les acteurs malveillants peuvent tirer parti de ces outils pour réaliser des cyberattaques plus sophistiquées. Les experts en cybersécurité mettent en garde contre des attaques par compromission des e-mails professionnels (BEC) et des attaques par ransomware qui sont encore plus avancées du fait de l’IA. Des outils tels que ChatGPT sont des modèles de traitement du langage naturel qui améliorent la capacité d’un pirate à avoir l’air plus humain lors du déploiement des attaques BEC et des escroqueries par phishing. Comme le souligne Protocol, les attaques par ransomware sont difficiles à développer, mais avec les avancées de l’IA, les acteurs malveillants peuvent être en mesure d’automatiser les processus et de réaliser plus rapidement des attaques par ransomware.

Pourtant, tout comme les acteurs malveillants explorent des moyens d’exploiter le machine learning, les « pirates éthiques » investissent du temps pour accélérer la technologie de détection des menaces. Par exemple, si des pirates peuvent demander à ChatGPT d’écrire un e-mail de phishing, les utilisateurs peuvent également demander au bot d’examiner les e-mails pour détecter le langage de phishing.

Quelles sont les préoccupations éthiques autour de l’IA générative ?

Alors qu’OpenAI collecte les données des utilisateurs typiques pour la plupart des plates-formes en ligne, les experts en sécurité mettent en évidence le caractère vague de politiques de confidentialité et remettent en question sa capacité à protéger nos données personnelles des acteurs malveillants, surtout après que ChatGPT ait subi un « bug historique » en mars, qui a temporairement exposé les informations de paiement des utilisateurs.

La page FAQ d’OpenAI indique également que leurs employés examinent les discussions sur ChatGPT et utilisent les données pour former le modèle. Les régulateurs européens affirment que cela pourrait violer les règles du RGPD, qui nécessitent l’accord explicite des utilisateurs et une base juridique pour le stockage des données des utilisateurs.

En 2021, l’UE a proposé sa Loi sur l’intelligence artificielle pour fonctionner en parallèle de la législation RGPD et garder un œil sur l’IA générative en matière de confidentialité. L’Italie a même interdit ChatGPT, mais elle a levé l’interdiction peu après qu’OpenAI ait ajusté sa politique de confidentialité. Pourtant, les régulateurs de nombreux pays enquêtent sur l’utilisation des données par la plate-forme, ainsi que sur son potentiel de propagation de la désinformation. Comme les LLM ont la capacité de générer des informations insensées, ce qui est communément appelé « hallucinations », certaines des réponses sont sujettes aux erreurs ou factuellement incorrectes.

Dans l’industrie des soins de santé, ChatGPT est intégré aux plates-formes des dossiers de santé électroniques (EHR). Les professionnels de la santé explorent également des moyens d’utiliser l’IA générative pour simplifier les tâches, comme la traduction des documents pour les patients et la synthèse des antécédents médicaux des patients. Tout cela soulève des préoccupations autour de la conformité HIPAA, ainsi que la confidentialité, la précision et la responsabilité dans les soins de santé.

Comment utiliser l’IA générative de manière plus réfléchie ?

Avec une sensibilisation aux capacités de l’IA générative et aux lacunes en matière de confidentialité, voici des moyens d’atténuer les risques lors de l’utilisation de la plate-forme.

Des particuliers peuvent demander à OpenAI de supprimer leurs données et d’interdire à l’outil d’utiliser leurs données à des fins de formation.
Pour les développeurs, The Stack, un ensemble de données de code source sous licence autorisée, permet aux utilisateurs de GitHub de remplir un formulaire Google « pour que leur code soit supprimé de l’ensemble de données sur demande ».
Utilisez un identifiant sécurisé lors de la création d’un compte avec OpenAI et toute autre plate-forme d’IA générative.
Faites attention à la façon dont vous utilisez les conseils générés à partir de grands modèles linguistiques et tenez compte des potentielles violations des droits d’auteur, des facteurs éthiques et de la précision des conseils générés par l’IA.
Ne partagez jamais de données propriétaires ou personnelles avec ChatGPT ou d’autres plates-formes d’IA génératives, y compris des codes sensibles. Si vous ne souhaitez pas publier ouvertement vos données en ligne, ne les partagez pas avec des outils d’IA.
Faites attention à la façon dont vous partagez vos données en ligne en général : réfléchissez à deux fois avant de partager certaines informations sur des forums publics tels que les médias sociaux ou des plates-formes non sécurisées pour limiter l’utilisation malveillante ou involontaire de vos données.

Voici comment DALL-E, le générateur d’images au stade précoce d’OpenAI, a eu un impact sur la cybersécurité.

Inscrivez-vous pour connaître toute l'actualité de Dashlane

W. Perry Wortman