Estos humanos falsos espeluznantes anuncian una nueva era en IA

Alguna vez se los consideró menos deseables que los datos reales, pero ahora algunos consideran que los datos sintéticos son una panacea. Los datos reales son confusos y están plagados de sesgos. Las nuevas regulaciones de privacidad de datos dificultan la recopilación. Por el contrario, los datos sintéticos son prístinos y pueden usarse para construir conjuntos de datos más diversos. Puede producir rostros perfectamente etiquetados, por ejemplo, de diferentes edades, formas y etnias para construir un sistema de detección de rostros que funcione en todas las poblaciones.

Pero los datos sintéticos tienen sus limitaciones. Si no refleja la realidad, podría terminar produciendo una inteligencia artificial aún peor que los datos desordenados y sesgados del mundo real, o simplemente podría heredar los mismos problemas. “Lo que no quiero hacer es aprobar este paradigma y decir: ‘Oh, esto resolverá tantos problemas’”, dice Cathy O’Neil, científica de datos y fundadora de la firma de auditoría algorítmica ORCAA. “Porque también ignorará muchas cosas”.

Realista, no real

El aprendizaje profundo siempre se ha centrado en los datos. Pero en los últimos años, la comunidad de IA ha aprendido que bien los datos son más importantes que grande

datos. Incluso pequeñas cantidades de los datos correctos y claramente etiquetados pueden hacer más para mejorar el rendimiento de un sistema de inteligencia artificial que 10 veces la cantidad de datos no curados, o incluso un algoritmo más avanzado.

Eso cambia la forma en que las empresas deben abordar el desarrollo de sus modelos de inteligencia artificial, dice el director ejecutivo y cofundador de Datagen, Ofir Chakon. Hoy, comienzan adquiriendo la mayor cantidad de datos posible y luego modifican y ajustan sus algoritmos para un mejor rendimiento. En cambio, deberían hacer lo contrario: usar el mismo algoritmo mientras mejoran la composición de sus datos.

Datagen también genera muebles falsos y ambientes interiores para poner en contexto a sus humanos falsos.

DATAGEN

Pero recopilar datos del mundo real para realizar este tipo de experimentación iterativa es demasiado costoso y requiere mucho tiempo. Aquí es donde entra Datagen. Con un generador de datos sintéticos, los equipos pueden crear y probar docenas de nuevos conjuntos de datos al día para identificar cuál maximiza el rendimiento de un modelo.

Para garantizar el realismo de sus datos, Datagen brinda a sus proveedores instrucciones detalladas sobre cuántas personas escanear en cada grupo de edad, rango de IMC y etnia, así como una lista establecida de acciones que deben realizar, como caminar por una habitación o bebiendo un refresco. Los proveedores envían imágenes estáticas de alta fidelidad y datos de captura de movimiento de esas acciones. Los algoritmos de Datagen luego expanden estos datos en cientos de miles de combinaciones. A veces, los datos sintetizados se vuelven a comprobar. Las caras falsas se trazan contra caras reales, por ejemplo, para ver si parecen realistas.

Datagen ahora está generando expresiones faciales para monitorear el estado de alerta del conductor en autos inteligentes, movimientos corporales para rastrear a los clientes en tiendas sin cajeros, e iris y movimientos de manos para mejorar las capacidades de rastreo de ojos y manos de los cascos de realidad virtual. La compañía dice que sus datos ya se han utilizado para desarrollar sistemas de visión por computadora que atienden a decenas de millones de usuarios.

No son solo los humanos sintéticos los que se fabrican en masa. Click-Ins es una startup que utiliza IA sintética para realizar inspecciones automáticas de vehículos. Usando software de diseño, recrea todas las marcas y modelos de automóviles que su IA necesita reconocer y luego los renderiza con diferentes colores, daños y deformaciones bajo diferentes condiciones de iluminación, contra diferentes fondos. Esto le permite a la compañía actualizar su IA cuando los fabricantes de automóviles lanzan nuevos modelos y le ayuda a evitar violaciones de privacidad de datos en países donde las placas de matrícula se consideran información privada y, por lo tanto, no pueden estar presentes en las fotos utilizadas para entrenar a la IA.

Click-Ins renderiza autos de diferentes marcas y modelos en diferentes contextos.

CLICK-INS

Mayormente.ai trabaja con compañías financieras, de telecomunicaciones y de seguros para proporcionar hojas de cálculo de datos de clientes falsos que permitan a las empresas compartir su base de datos de clientes con proveedores externos de una manera legalmente compatible. La anonimización puede reducir la riqueza de un conjunto de datos y aun así no proteger adecuadamente la privacidad de las personas. Pero los datos sintéticos se pueden utilizar para generar conjuntos de datos falsos detallados que comparten las mismas propiedades estadísticas que los datos reales de una empresa. También se puede utilizar para simular datos que la empresa aún no tiene, incluida una población de clientes más diversa o escenarios como actividad fraudulenta.

Los defensores de los datos sintéticos dicen que también pueden ayudar a evaluar la IA. En un artículo reciente publicado en una conferencia de IA, Suchi Saria, profesora asociada de aprendizaje automático y atención médica en la Universidad Johns Hopkins, y sus coautores demostraron cómo las técnicas de generación de datos podrían usarse para extrapolar diferentes poblaciones de pacientes a partir de un solo conjunto de datos. Esto podría ser útil si, por ejemplo, una empresa solo tuviera datos de la población más joven de la ciudad de Nueva York, pero quisiera comprender cómo funciona su IA en una población que envejece con una mayor prevalencia de diabetes. Ahora está iniciando su propia empresa, Bayesian Health, que utilizará esta técnica para ayudar a probar los sistemas médicos de IA.

Los límites de fingirlo

Pero, ¿se sobrevaloran los datos sintéticos?

En lo que respecta a la privacidad, “el hecho de que los datos sean ‘sintéticos’ y no se correspondan directamente con los datos reales del usuario no significa que no codifiquen información confidencial sobre personas reales”, dice Aaron Roth, profesor de informática y ciencias de la información. en la Universidad de Pennsylvania. Se ha demostrado que algunas técnicas de generación de datos reproducen de cerca las imágenes o el texto que se encuentran en los datos de entrenamiento, por ejemplo, mientras que otras son vulnerables a ataques que les hacen regurgitar completamente esos datos.

Esto podría estar bien para una empresa como Datagen, cuyos datos sintéticos no están destinados a ocultar la identidad de las personas que dieron su consentimiento para ser escaneadas. Pero sería una mala noticia para las empresas que ofrecen su solución como una forma de proteger la información confidencial financiera o de los pacientes.

La investigación sugiere que la combinación de dos técnicas de datos sintéticos en particular:privacidad diferencial y redes generativas antagónicas: pueden producir las protecciones de privacidad más sólidas, dice Bernease Herman, científico de datos del Instituto de eScience de la Universidad de Washington. Pero a los escépticos les preocupa que este matiz pueda perderse en la jerga de marketing de los proveedores de datos sintéticos, que no siempre serán comunicativos sobre las técnicas que están utilizando.

Leave a Reply

Your email address will not be published. Required fields are marked *