Passer au contenu principal
Dashlane Logo

Comment l’IA alimente la saisie automatique de Dashlane sans compromettre votre confidentialité

Date de publication :
La saisie automatique de Dashlane utilise la puissance de l'IA pour offrir à la fois précision et confidentialité, pour une expérience utilisateur optimale. En savoir plus.

Vous êtes-vous déjà demandé comment Dashlane sait par magie quelles informations remplir dans quels champs de formulaire, malgré les millions de sites Web qui existent, afin de pouvoir offrir à nos utilisateurs une expérience incroyable ? Ou comment nous parvenons à protéger vos données tout en rendant votre expérience en ligne fluide ?

Aujourd'hui, nous dévoilons l'une de nos fonctionnalités les plus puissantes et les plus soucieuses de la confidentialité : notre système de saisie automatique alimenté par l'IA.

Le défi : une intelligence sans invasion

Lorsque la plupart des entreprises construisent des systèmes d'IA, elles suivent une formule simple : collecter les données utilisateur, les envoyer sur le cloud, les analyser sur place et renvoyer les résultats. Mais chez Dashlane, notre architecture « zero-knowledge » signifie que nous n'avons jamais accès à vos mots de passe, à vos données personnelles ou même à votre historique de navigation.

Cela crée deux défis importants pour notre équipe :

  1. Le problème du mur d'authentification : la plupart des formulaires qui méritent d'être remplis se trouvent derrière les écrans de connexion. Pour créer un ensemble de données afin de former nos modèles, nous avons besoin d'exemples de ces formulaires, mais les captchas et la double authentification rendent leur automatisation difficile.
  2. Le paradoxe de la confidentialité : nous devons créer des modèles intelligents qui comprennent différents types de formulaires et de champs, mais nous ne pouvons pas utiliser les approches traditionnelles d'apprentissage automatique basées sur le cloud qui compromettraient les données des utilisateurs.

Alors, comment avons-nous résolu ces défis ? Regardons cela de plus près.

Collecte de données : l'approche collaborative

Au lieu de collecter les données de nos utilisateurs, nous avons créé « Vortex for Dashlaners », un outil interne que les membres de notre équipe Dashlane exécutent volontairement sur leurs appareils. Cet outil détecte lorsqu'un utilisateur Dashlane rencontre un formulaire qui n'apparaît pas encore dans notre base de données et l'invite à y contribuer (après avoir supprimé toutes ses données personnelles).

A screenshot of the Datadog login screen shows a Dashlane pop-up that says “Unknown form detected. Capture this form to improve the autofill accuracy.” Beside it is a blue button that says “Capture page.

Nous l'avons même rendu plus ludique avec un classement et des points d'expérience, transformant ainsi la collecte de données en un effort collaboratif.

A screenshot that says Vortex leaderboard shows the top 5 form-capture contributors of all time, with an all-time total of 6778 points.

Normalisation de la classification des formulaires Web : le Standard SAWF

Avant d'entraîner nos modèles à reconnaître automatiquement les éléments de formulaire sur le Web, nous devions définir l'espace complet des balises possibles qui pouvaient être affectées aux formulaires et aux champs. Cette classification nous a amenés à développer le Standard SAWF (Semantically Annotated Web Forms).

Le Standard SAWF introduit l'attribut data-form-type comme moyen normalisé d'étiqueter de manière sémantique les formulaires et les champs de formulaire en HTML, établissant ainsi de bonnes pratiques que les développeurs peuvent suivre.

Le standard définit avec précision :

  1. Types de formulaires : une taxonomie complète comprenant la connexion, l'inscription, le paiement, la livraison, la facturation, la recherche et d'autres formulaires spécialisés.
  2. Types de champs : des spécifications détaillées pour classer les champs de saisie selon des dizaines de classifications, telles que le nom d'utilisateur, le mot de passe, l'e-mail, l'adresse et le paiement.
  3. Relations hiérarchiques : les relations hiérarchiques dans SAWF définissent les structures parent-enfant pour les formulaires et les champs. Pour les formulaires, la hiérarchie peut refléter un processus en plusieurs étapes. Par exemple, dans un formulaire de type « connexion », nous pouvons vous demander votre e-mail à la première étape, puis votre mot de passe à la dernière étape. Pour les champs, les hiérarchies organisent les entrées associées en taxonomies. Par exemple, un champ général « nom » comporte des sous-types, y compris le prénom, le nom de famille et le nom de jeune fille, tandis que le champ « date » peut être structuré avec le jour, le mois et l'année comme éléments enfants.

En créant ce standard de classification, nous avons non seulement établi des objectifs d'entraînement clairs pour nos modèles d'IA, mais nous avons également fourni un plan de mise en œuvre qui peut améliorer la précision de la saisie automatique sur l'ensemble de l'écosystème Web.

Étiquetage intelligent avec l'IA générative

Une fois que nous avons collecté des milliers de formulaires, nous avons fait face à un autre défi : comprendre à quoi servait chaque champ. Une méthode consiste à faire appel à des sous-traitants pour identifier et étiqueter manuellement chaque type de champ (par exemple en marquant « ceci demande un e-mail » ou « ceci est pour un mot de passe »). Cet étiquetage humain fournit les exemples dont notre IA a besoin pour apprendre à quoi ressemblent les différents champs de formulaire.

Cependant, ce processus nécessite beaucoup de temps et une formation importante pour que les sous-traitants comprennent la taxonomie. Le Web étant en constante évolution et de nouveaux modèles apparaissant régulièrement, il n'est pas possible d'attendre que les sous-traitants terminent le processus d'étiquetage à chaque fois que nous devons mettre à jour notre modèle avec de nouveaux exemples.

Nous utilisons plutôt l'IA générative (GenAI), spécifiquement pour la classification des champs de formulaire. Comme cet étiquetage se produit complètement hors ligne sur l'ensemble de données de formulaire collecté (et non sur vos données personnelles), nous pouvons utiliser des modèles d'IA puissants et de pointe sans aucun problème de confidentialité. 

Une fois que nous avons étiqueté l'ensemble de nos données de cette façon, nous passons à la dernière étape : l'entraînement d'un modèle d'IA distinct, hautement optimisé, spécialement conçu pour être suffisamment léger et fonctionner dans votre extension de navigateur. Ce modèle spécialisé distille l'intelligence du modèle plus grand sous un format compact qui peut effectuer des prédictions en quelques millisecondes sans jamais envoyer vos données à nos serveurs.

Mais comment maintenir des prédictions de haute qualité avec un modèle plus optimisé ? 

Trouver le bon signal sur la page Web 

Au cours de notre processus d'étiquetage avec l'IA générative, nous pouvons fournir le contenu HTML complet des pages, car ces modèles peuvent traiter de grandes quantités d'informations à la fois. Cependant, notre modèle de production fait face à différentes contraintes. Les extensions de navigateur ont besoin de modèles compacts et efficaces avec des « fenêtres contextuelles » beaucoup plus petites, car elles ne peuvent tout simplement pas traiter des pages Web entières à la fois comme leurs homologues plus grandes.

Pour combler cette lacune, nous utilisons un processus en deux étapes. Tout d'abord, nous avons une phase de détection où nous identifions si les formulaires se trouvent dans la structure DOM (Document Object Model) de la page. Notre algorithme analyse la page à la recherche de formulaires HTML traditionnels et de « pseudo-formulaires » (groupes de champs de saisie qui fonctionnent comme des formulaires, mais qui ne sont pas explicitement marqués comme tels).

Une fois que nous avons localisé les formulaires, nous extrayons des signaux d'entrée significatifs via un processus d'extraction. Nous recueillons à la fois les attributs techniques de chaque champ (comme les types de balises HTML, les types de saisie et les noms de champ) et le texte lisible par les humains que les utilisateurs voient réellement sur la page (étiquettes, texte d'espace réservé et contenu environnant). Ces indices soigneusement sélectionnés fournissent les informations essentielles dont notre modèle compact a besoin pour classifier avec précision chaque champ sans avoir à consulter l'ensemble du contenu de la page.

On the left is a standard login screen with the username field bordered in red and “Detection” labeled underneath everything. There is an arrow pointing to the right of the login screen showing human-readable text labeled Scraping. Below that is an arrow pointing down toward a network icon that says “username” underneath and is labeled Prediction.

Le cycle de saisie automatique de Dashlane : une amélioration continue avec respect de la confidentialité dès la conception

Notre solution met en œuvre un cycle complet qui améliore en permanence nos capacités de saisie automatique, comme l'illustre la figure ci-dessous :

Collecte de données : lorsque les utilisateurs Dashlane consultent des formulaires inconnus sur le Web, ces derniers sont capturés et stockés dans notre base de données Vortex.

Étiquetage intelligent : ces formulaires capturés sont ensuite traités par un système d'IA générative, qui étiquette et classe chaque champ en fonction de son contexte et du standard SAWF.

Entraînement du modèle : les formulaires balisés servent d'entrée pour entraîner notre modèle d'IA de saisie automatique, qui est ensuite intégré à l'extension et à l'application mobile.

A diagram starts with “Dashlaner navigates to unknown form. Beside it is an arrow labeled “capture” that leads to the next part of the diagram, “Unknown forms in Vortex.” This is followed by an arrow that leads to “GenAI tags captured forms,” which is followed by an arrow that leads to “Forms tagged by GenAI.” This is followed by an arrow that leads to “Tagged forms serve as input to DL model,” which is followed by an arrow that leads to “DL autofill model.”

Le résultat ? Une expérience de saisie de formulaires qui semble magique sans jamais compromettre votre confidentialité. Vos données sensibles restent sur votre appareil, comme il convient.

En conclusion, le système de saisie automatique alimenté par l'IA de Dashlane offre une approche unique qui accorde la priorité à la confidentialité des utilisateurs. En utilisant une collecte interne de données, un système de classification des formulaires standardisé (SAWF) et l'IA générative pour l'étiquetage intelligent, nous avons créé un moteur de saisie automatique robuste et intelligent. Ce moteur fonctionne entièrement sur votre appareil, ce qui garantit que vos données sensibles restent protégées.

Le cycle continu de la collecte de données, de l'étiquetage intelligent et de l'entraînement des modèles nous permet d'améliorer constamment la précision et l'efficacité de nos fonctionnalités de saisie automatique, tout en respectant notre engagement en matière de confidentialité dès la conception.

Inscrivez-vous pour connaître toute l'actualité de Dashlane