Überspringen und zum Hauptinhalt gehen
Dashlane Logo

Wie KI das Autovervollständigen von Dashlane unterstützt, ohne Ihre Privatsphäre zu gefährden

Veröffentlicht:
Das Autovervollständigen von Dashlane nutzt KI, um sowohl Genauigkeit als auch Datenschutz für eine optimale Benutzererfahrung zu gewährleisten. Erfahren Sie, wie das geht.

Haben Sie sich schon mal gefragt, wie Dashlane trotz Millionen von Websites weiß, welche Informationen in welche Formularfelder eingetragen werden müssen, um unseren Benutzern ein tolles Erlebnis zu bieten? Oder wie wir es schaffen, Ihre Daten zu schützen und gleichzeitig die Navigation im Internet so angenehm wie möglich zu gestalten?

Heute lüften wir das Geheimnis und enthüllen eine unserer leistungsstärksten, aber datenschutzbewussten Funktionen: unser KI-gestütztes Autovervollständigungssystem.

Die Herausforderung: Intelligenz ohne Invasion

Die meisten Unternehmen verfolgen bei der Entwicklung ihrere KI-Systeme einen einfachen Ansatz: Sie erfassen Benutzerdaten, senden sie in die Cloud, analysieren sie dort und senden die Ergebnisse zurück. Bei Dashlane haben wir jedoch aufgrund unserer Zero-Knowledge-Architektur keinen Zugriff auf Ihre Passwörter, privaten Daten oder sogar den Browserverlauf.

Dies stellt zwei große Herausforderungen für unser Team dar:

  1. Das Problem mit der Authentifizierungswand: Die meisten Formulare, die automatisch ausgefüllt werden können, befinden sich direkt hinter den Anmeldebildschirmen. Um eine Datenbasis zu erstellen, mit der unsere Modelle trainiert werden können, benötigen wir Beispiele für diese Formulare. Captchas und Zwei-Faktor-Authentifizierung machen eine Automatisierung jedoch schwierig.
  2. Das Datenschutzparadox: Wir müssen intelligente Modelle entwickeln, die verschiedene Arten von Formularen und Felder verstehen, aber wir können keine traditionellen cloudbasierten Ansätze für maschinelles Lernen verwenden, da diese dei Benutzerdaten gefährden würden.

Wie haben wir diese Herausforderungen gelöst? Schauen wir uns das mal näher an.

Datenerfassung: Der kollaborative Ansatz

Anstatt Daten von unseren Benutzern zu erfassen, haben wir „Vortex für Dashlaner“ entwickelt, ein internes Tool, das unsere Teammitglieder (Dashlaner) freiwillig auf ihren Geräten ausführen. Dieses Tool erkennt, wenn ein Dashlaner auf ein Formular stößt, das noch nicht in unserer Datenbank ist, und fordert ihn auf, es einzureichen (nachdem alle persönlichen Daten entfernt wurden).

A screenshot of the Datadog login screen shows a Dashlane pop-up that says “Unknown form detected. Capture this form to improve the autofill accuracy.” Beside it is a blue button that says “Capture page.

Wir haben sogar ein Spiel daraus gemacht, mit einer Bestenliste und Erfahrungspunkten, damit die Datenerfassung Spaß macht.

A screenshot that says Vortex leaderboard shows the top 5 form-capture contributors of all time, with an all-time total of 6778 points.

Standardisierung der Klassifizierung von Webformularen: Der SAWF-Standard

Bevor wir unsere Modelle trainierten, um Formularelemente im Web zu erkennen, mussten wir den gesamten Bereich möglicher Tags definieren, die Formularen und Feldern zugewiesen werden konnten. Diese Klassifizierung hat uns zur Entwicklung des Standards für „Semantically Annotated Web Forms“ (SAWF) veranlasst.

SAWF führt das Attribut „data-form-type“ als standardisierte Methode zur semantischen Kennzeichnung von Formularen und Formularfeldern in HTML ein und etabliert Best Practices, an denen sich die Entwickler orientieren können.

Der Standard definiert klar:

  1. Formulartypen: Eine umfassende Taxonomie, die Anmeldung, Registrierung, Zahlung, Versand, Rechnung, Suche und andere spezialisierte Formulare umfasst.
  2. Feldtypen: Detaillierte Spezifikationen für die Kategorisierung von Eingabefeldern in Dutzende von Klassifizierungen, wie Benutzername, Passwort, E-Mail-Adresse, Adresskomponenten und Zahlung.
  3. Hierarchische Beziehungen: Hierarchische Beziehungen in SAWF definieren Eltern-Kind-Strukturen für sowohl Formulare als auch Felder. Bei Formularen kann die Hierarchie einen mehrstufigen Prozess erfassen. Ein Beispiel: In einem Anmeldeformular können wir Sie im ersten Schritt nach Ihrer E-Mail-Adresse und dann im letzten Schritt nach Ihrem Passwort fragen. Für Felder organisieren Hierarchien verwandte Eingaben in Taxonomien. Der allgemeine Feldtyp „Name“ hat beispielsweise einige Untertypen, einschließlich Vorname, Familienname und Mädchenname, während der Typ „Datum“ mit Tag, Monat und Jahr als untergeordneten Feldern strukturiert sein kann.

Mit der Erstellung dieses Klassifizierungsstandards haben wir nicht nur klare Trainingsziele für unsere KI-Modelle festgelegt, sondern auch eine Implementierungsstrategie bereitgestellt, die die Genauigkeit der Autovervollständigung im gesamten Web-Ökosystem verbessern kann.

Intelligente Kennzeichnung mit generativer KI

Nachdem wir Tausende von Formularen erfasst hatten, standen wir vor einer weiteren Herausforderung: Wir mussten verstehen, wofür jedes Feld dient. Eine Methode besteht darin, Auftragnehmer zu verwenden, um jeden Feldtyp manuell zu identifizieren und zu kennzeichnen (wie die Markierung „dieses Feld erfordert eine E-Mail“ oder „dieses Feld ist für ein Passwort“). Diese menschliche Kennzeichnung liefert die Beispiele, die unsere KI benötigt, um zu erfahren, wie die verschiedenen Formularfelder aussehen.

Dieser Prozess erfordert jedoch viel Zeit und Training, damit die Auftragnehmer die Taxonomie verstehen. Da das Web sich ständig weiterentwickelt und regelmäßig neue Formularmuster und Designs entwickelt werden, ist es nicht möglich, darauf zu warten, bis Auftragnehmer den Kennzeichnungsprozess abschließen, wenn wir unser Modell mit neuen Mustern aktualisieren müssen.

Stattdessen nutzen wir generative KI (GenAI), speziell für die Klassifizierung von Formularfeldern. Da diese Kennzeichnung vollständig offline auf unserem gesammelten Formulardatensatz (nicht auf Ihre privaten Daten) erfolgt, können wir leistungsstarke, hochmoderne KI-Modelle verwenden, ohne die Daten zu gefährden. 

Sobald wir unsere gesamte Datenbasis mit dieser Kennzeichnung versehen haben, gehen wir zum letzten Schritt über: Dem Trainieren eines separaten, hochgradig optimierten KI-Modells, das speziell so entwickelt wurde, dass es leicht genug ist, um in Ihrer Browser-Erweiterung ausgeführt zu werden. Dieses spezialisierte Modell komprimiert die Informationen des größeren Modells in einer kompakten Form, um Vorhersagen in Millisekunden durchzuführen, ohne Ihre Daten an unsere Server zu senden.

Jetzt fragen Sie sich vielliche, wie wir qualitativ hochwertige Vorhersagen mit einem optimierten Modell aufrechterhalten können. 

Das richtige Signal auf der Webseite finden 

Während unseres Kennzeichnungsprozesses mit GenAI können wir den gesamten HTML-Inhalt von Seiten bereitstellen, da diese Modelle große Mengen an Daten verarbeiten können. Doch unser Produktivmodell ist anderen Einschränkungen ausgesetzt. Browser benötigen kompakte, effiziente Modelle mit viel kleineren „Kontextfenstern“, da sie keine ganzen Webseiten auf einmal verarbeiten können wie die größeren Modelle.

Um diese Lücke zu schließen, verwenden wir einen zweistufigen Prozess. Zunächst haben wir eine Erkennungsphase, in der wir identifizieren, ob und wo die Formulare sich in der Document Object Model (DOM)-Struktur der Seite befinden. Unser Algorithmus scannt die Seite sowohl auf traditionelle HTML-Formulare als auch auf „Pseudoformulare“ (Gruppen von Eingabefeldern, die als Formulare funktionieren, aber nicht explizit als solche gekennzeichnet sind).

Sobald wir die Formulare gefunden haben, extrahieren wir aussagekräftige Eingabesignale mithilfe eines Scraping-Prozesses. Wir erfassen sowohl die technischen Attribute jedes Felds (wie HTML-Tag-Typen, Eingabetypen und Feldnamen) als auch den von Menschen lesbaren Text, den Benutzer tatsächlich auf der Seite sehen (Labels, Platzhalter und umgebende Inhalte). Diese sorgfältig ausgewählten Hinweise stellen die wesentlichen Informationen bereit, die unser kompaktes Modell benötigt, um jedes Feld genau zu klassifizieren, ohne den gesamten Seiteninhalt zu benötigen.

On the left is a standard login screen with the username field bordered in red and “Detection” labeled underneath everything. There is an arrow pointing to the right of the login screen showing human-readable text labeled Scraping. Below that is an arrow pointing down toward a network icon that says “username” underneath and is labeled Prediction.

Der Autovervollständigungszyklus von Dashlane: Kontinuierliche Verbesserung durch gezielten Schutz der Privatsphäre

Unsere Lösung implementiert einen umfassenden Zyklus, der unsere Autovervollständigung kontinuierlich verbessert, wie in der folgenden Abbildung dargestellt:

Datenerfassung: Wenn Dashlan-Benutzer im Web zu unbekannten Formularen navigieren, werden diese erfasst und in unserer Vortex-Datenbank gespeichert.

Intelligente Kennzeichnung: Diese erfassten Formulare werden dann von einem GenAI-System verarbeitet, das jedes Feld anhand seines Kontexts und des SAWF-Standards kennzeichnet und klassifiziert.

Modelltraining: Die gekennzeichneten Formulare dienen als Eingabe, um unser KI-Modell für die Autovervollständigung zu trainieren, das dann in die Erweiterung und die mobile App integriert wird.

A diagram starts with “Dashlaner navigates to unknown form. Beside it is an arrow labeled “capture” that leads to the next part of the diagram, “Unknown forms in Vortex.” This is followed by an arrow that leads to “GenAI tags captured forms,” which is followed by an arrow that leads to “Forms tagged by GenAI.” This is followed by an arrow that leads to “Tagged forms serve as input to DL model,” which is followed by an arrow that leads to “DL autofill model.”

Das Ergebnis? Formulare werden auf magische Weise ausgefüllt, wobei Ihre Privatsphäre immer geschützt ist. Ihre sensiblen Daten verbleiben auf Ihrem Gerät, wo sie hingehören.

Zusammenfassend lässt sich sagen, dass das KI-gestützte Autovervollständigen von Dashlane einen einzigartigen Ansatz bietet, der den Datenschutz von Benutzern über alles andere stellt. Durch Nutzung interner Datenerfassung, eines standardisierten Formularklassifizierungssystems (SAWF) und GenAI für die intelligente Kennzeichnung haben wir eine robuste und intelligente Engine für das automatische Ausfüllen entwickelt. Diese Engine arbeitet ausschließlich auf Ihrem Gerät und stellt sicher, dass Ihre sensiblen Daten geschützt bleiben.

Der kontinuierliche Zyklus von Datenerfassung, intelligenter Kennzeichnung und Modelltraining ermöglicht es uns, die Genauigkeit und Effizienz unserer Autovervollständigung konsequent zu verbessern und gleichzeitig unsere Verpflichtung zum gezielten Schutz der Privatsphäre zu wahren.

Melden Sie sich an, um Neuigkeiten und Updates zu Dashlane zu erhalten