Ir al contenido principal
Dashlane Logo

Cómo la IA potencia el llenado automático de Dashlane sin comprometer su privacidad

Publicado:
El llenado automático de Dashlane usa el poder de la IA para ofrecer precisión y privacidad para una experiencia de usuario óptima. Sepa cómo.

¿Alguna vez se ha preguntado cómo Dashlane sabe mágicamente qué información rellenar en qué campos de formulario, a pesar de los millones de sitios web que existen, para poder ofrecer a nuestros usuarios una experiencia increíble? ¿O cómo logramos proteger sus datos al tiempo que seguimos haciendo que su experiencia en línea sea sin interrupciones?

Hoy, levantamos el telón de una de nuestras funciones más potentes pero conscientes de la privacidad: nuestro sistema de llenado automático impulsado por IA.

El desafío: inteligencia sin invasión

Cuando la mayoría de las empresas crean sistemas de IA, siguen una fórmula simple: recopilar datos de usuario, enviarlos a la nube, analizarlos allí y enviar los resultados. Pero en Dashlane, nuestra arquitectura de conocimiento cero significa que nunca tenemos acceso a sus contraseñas, información personal o incluso al historial de navegación.

Esto crea dos desafíos significativos para nuestro equipo:

  1. El problema del muro de autenticación: la mayoría de los formularios que vale la pena rellenar viven tras pantallas de ingreso. Para crear un conjunto de datos para entrenar a nuestros modelos necesitamos ejemplos de estos formularios, pero los captchas y la autenticación de dos factores hacen que sea difícil de automatizar.
  2. La paradoja de la privacidad: necesitamos crear modelos inteligentes que entiendan diferentes tipos de formularios y campos, pero no podemos usar enfoques de aprendizaje automático tradicionales basados en la nube que comprometerían los datos de los usuarios.

Entonces, ¿cómo resolvimos estos desafíos? Profundicemos en ello.

Recopilación de datos: el enfoque colaborativo

En lugar de recopilar datos de nuestros usuarios, creamos «Vortex para Dashlaners», una herramienta interna que nuestros miembros del equipo (Dashlaners) ejecutan voluntariamente en sus dispositivos. Esta herramienta identifica cuando un Dashlaner encuentra un formulario que aún no está en nuestra base de datos y le invita a contribuir con él (después de eliminar toda la información personal).

A screenshot of the Datadog login screen shows a Dashlane pop-up that says “Unknown form detected. Capture this form to improve the autofill accuracy.” Beside it is a blue button that says “Capture page.

Incluso lo hicimos divertido con una tabla de clasificación y puntos de experiencia, convirtiendo la recopilación de datos en un esfuerzo de colaboración.

A screenshot that says Vortex leaderboard shows the top 5 form-capture contributors of all time, with an all-time total of 6778 points.

Estandarización de la clasificación de formularios web: el estándar SAWF

Antes de entrenar a nuestros modelos para reconocer automáticamente los elementos de formulario en toda la web, necesitábamos definir el espacio completo de posibles etiquetas que se podrían asignar a formularios y campos. Esta clasificación nos llevó a desarrollar el estándar de Formularios web con anotaciones semánticas (SAWF).

SAWF presenta el atributo data-form-type como una forma estandarizada de etiquetar semánticamente formularios y campos de formulario en HTML, estableciendo las prácticas recomendadas que los desarrolladores pueden seguir.

El estándar define con precisión:

  1. Tipos de formularios: una taxonomía completa que incluye ingreso, registro, pago, envío, facturación, búsqueda y otros formularios especializados.
  2. Tipos de campo: especificaciones detalladas para categorizar campos de entrada en docenas de clasificaciones, como nombre de usuario, contraseña, correo electrónico, componentes de dirección y pago.
  3. Relaciones jerárquicas: las relaciones jerárquicas en SAWF definen estructuras padre-hijo tanto para formularios como para campos. Para los formularios, la jerarquía puede capturar un proceso de varios pasos. Por ejemplo, en un formulario de «ingreso» podemos pedirle su correo electrónico en el primer «paso» y luego su contraseña en el paso «final». Para los campos, las jerarquías organizan entradas relacionadas en taxonomías. Por ejemplo, un tipo de campo general de «nombre» tiene subtipos, que incluyen nombre, apellido y apellido de soltera, mientras que el tipo de «fecha» se puede estructurar con día, mes y año como secundarios.

Al crear este estándar de clasificación, no solo hemos establecido objetivos de capacitación claros para nuestros modelos de IA, sino que también hemos proporcionado un plano de implementación que puede mejorar la precisión de llenado automático en todo el ecosistema web.

Etiquetado inteligente con IA generativa

Una vez que habíamos recopilado miles de formularios, nos enfrentamos a otro desafío: comprender para qué era cada campo. Un método es usar contratistas para identificar y etiquetar manualmente cada tipo de campo (como marcar «esto es una solicitud de correo electrónico» o «esto es para una contraseña»). Este etiquetado humano proporciona los ejemplos que nuestra IA necesita para aprender cómo se ven los diferentes campos de formulario.

Sin embargo, este proceso requiere tiempo y capacitación significativa para que los contratistas entiendan la taxonomía. Dado que la web está en constante evolución con nuevos patrones de formulario y diseños que surgen regularmente, esperar a que los contratistas completen el proceso de etiquetado cada vez que necesitamos actualizar nuestro modelo con muestras frescas no es factible.

En su lugar, aprovechamos la IA generativa (GenAI), específicamente para la clasificación de campos de formularios. Debido a que este etiquetado se produce completamente sin conexión en nuestro conjunto de datos de formularios recopilados (no en su información personal), podemos usar modelos de IA potentes y de vanguardia sin ninguna preocupación de privacidad. 

Una vez que hemos etiquetado todo nuestro conjunto de datos de esta manera, pasamos a la última etapa: entrenar un modelo de IA separado y altamente optimizado que está diseñado específicamente para ser lo suficientemente ligero como para ejecutarse dentro de su extensión de navegador. Este modelo especializado destila la inteligencia del modelo más grande en una forma compacta que puede realizar predicciones en milisegundos sin enviar jamás sus datos a nuestros servidores.

Pero ¿cómo mantenemos predicciones de alta calidad con un modelo más optimizado, se preguntará? 

Encontrar la señal correcta en la página web 

Durante nuestro proceso de etiquetado con IA generativa, podemos proporcionar el contenido HTML completo de las páginas porque estos modelos pueden procesar grandes cantidades de información a la vez. Sin embargo, nuestro modelo de producción se enfrenta a diferentes restricciones. Las extensiones de navegador necesitan modelos compactos y eficientes con "ventanas de contexto" mucho más pequeñas, ya que simplemente no pueden procesar páginas web completas a la vez como sus contrapartidas más grandes.

Para cerrar esta brecha, empleamos un proceso de dos pasos. En primer lugar, tenemos una fase de detección en la que identificamos si los formularios están en la estructura de Modelo de objetos del documento (DOM) de la página. Nuestro algoritmo escanea la página tanto en busca de formularios HTML tradicionales como de «seudoformularios» (grupos de campos de entrada que funcionan como formularios pero no están etiquetados explícitamente como tales).

Una vez que hemos localizado los formularios, extraemos señales de entrada significativas a través de un proceso de extracción de datos. Recopilamos tanto los atributos técnicos de cada campo (como tipos de etiquetas HTML, tipos de entrada y nombres de campos) como el texto legible por un ser humano que los usuarios realmente ven en la página (etiquetas, texto de relleno y contenido circundante). Estas pistas seleccionadas cuidadosamente proporcionan la información esencial que nuestro modelo compacto necesita para clasificar con precisión cada campo sin necesitar todo el contenido de la página.

On the left is a standard login screen with the username field bordered in red and “Detection” labeled underneath everything. There is an arrow pointing to the right of the login screen showing human-readable text labeled Scraping. Below that is an arrow pointing down toward a network icon that says “username” underneath and is labeled Prediction.

El ciclo de llenado automático de Dashlane: mejora continua con privacidad por diseño

Nuestra solución implementa un ciclo completo que mejora continuamente nuestras capacidades de llenado automático, como se ilustra en la figura siguiente:

Recopilación de datos: cuando los usuarios de Dashlane navegan a formularios desconocidos en la web, se capturan y almacenan en nuestra base de datos Vortex.

Etiquetado inteligente: estos formularios capturados son procesados luego por un sistema de IA generativa, que etiqueta y clasifica cada campo en función de su contexto y el estándar SAWF.

Entrenamiento de modelos: los formularios etiquetados sirven como entrada para entrenar nuestro modelo de llenado automático de IA, que luego se integra en la extensión y la aplicación móvil.

A diagram starts with “Dashlaner navigates to unknown form. Beside it is an arrow labeled “capture” that leads to the next part of the diagram, “Unknown forms in Vortex.” This is followed by an arrow that leads to “GenAI tags captured forms,” which is followed by an arrow that leads to “Forms tagged by GenAI.” This is followed by an arrow that leads to “Tagged forms serve as input to DL model,” which is followed by an arrow that leads to “DL autofill model.”

¿El resultado? Una experiencia de rellenado de formularios que parece mágica pero nunca compromete su privacidad. Sus datos confidenciales permanecen en su dispositivo, justo donde deben estar.

En conclusión, el sistema de llenado automático impulsado por IA de Dashlane ofrece un enfoque único que prioriza la privacidad del usuario por encima de todo lo demás. Al utilizar la recopilación de datos interna, un sistema de clasificación de formularios estandarizado (SAWF) e IA generativa para el etiquetado inteligente, hemos creado un motor de llenado automático robusto e inteligente. Este motor opera completamente en su dispositivo, lo que garantiza que su información confidencial permanezca protegida.

El ciclo continuo de recopilación de datos, etiquetado inteligente y entrenamiento de modelos nos permite mejorar consistentemente la precisión y la eficiencia de nuestras capacidades de llenado automático, todo mientras mantenemos nuestro compromiso con la privacidad desde el diseño.

Regístrese para recibir noticias y actualizaciones acerca de Dashlane