¿Es nuestro aprendizaje automático? Ars se sumerge en la inteligencia artificial

¿Es nuestro aprendizaje automático?  Ars se sumerge en la inteligencia artificial

Todos los días, una pequeña pieza de lógica construida por bits muy específicos de tecnología de inteligencia artificial toma decisiones que afectan la forma en que experimentas el mundo. Podrían ser los anuncios que se le muestran en las redes sociales o sitios de compras, o el reconocimiento facial que desbloquea su teléfono, o las direcciones que toma para llegar a donde quiera que vaya. Estas decisiones discretas e invisibles se toman en gran parte mediante algoritmos creados por el aprendizaje automático (ML), un segmento de tecnología de inteligencia artificial que está capacitado para identificar la correlación entre conjuntos de datos y sus resultados. Hemos escuchado en películas y televisión durante años que las computadoras controlan el mundo, pero finalmente hemos llegado al punto en que las máquinas están tomando decisiones autónomas reales sobre las cosas. Bienvenidos al futuro, supongo.

En mis días como miembro del personal de Ars, escribí no poca cantidad sobre inteligencia artificial y aprendizaje automático. Hablé con científicos de datos que estaban construyendo sistemas analíticos predictivos basados ​​en terabytes de telemetría de sistemas complejos y parloteé con desarrolladores que intentaban construir sistemas que pudieran defender redes contra ataques o, en ciertas circunstancias, realmente organizar esos ataques. También he analizado los bordes de la tecnología, usando código y hardware para conectar varias cosas en las interfaces de programación de IA (a veces con resultados que provocan horror, como lo demuestra Bearlexa).

Muchos de los problemas a los que se puede aplicar el ML son tareas cuyas condiciones son obvias para los humanos. Eso es porque estamos entrenados para notar esos problemas a través de la observación: qué gato es más flácido o en qué momento del día el tráfico se congestiona más. Los humanos también podrían resolver otros problemas apropiados para el aprendizaje automático si se dispusiera de suficientes datos en bruto, es decir, si los humanos tuvieran una memoria perfecta, una vista perfecta y una comprensión innata del modelado estadístico.

Pero las máquinas pueden realizar estas tareas mucho más rápido porque no tienen limitaciones humanas. Y ML les permite realizar estas tareas sin que los humanos tengan que programar las matemáticas específicas involucradas. En cambio, un sistema de AA puede aprender (o al menos “aprender”) de los datos que se le proporcionan, creando un modelo de resolución de problemas en sí mismo.

Sin embargo, esta fuerza inicial también puede ser una debilidad. Comprender cómo llegó el sistema de ML a su proceso de decisión suele ser imposible una vez que se ha creado el algoritmo de ML (a pesar del trabajo en curso para crear ML explicable). Y la calidad de los resultados depende en gran medida de la calidad y la cantidad de datos. ML solo puede responder preguntas que se puedan discernir a partir de los datos en sí. Los datos incorrectos o los datos insuficientes producen modelos inexactos y un aprendizaje automático deficiente.

A pesar de mis aventuras anteriores, nunca he construido ningún sistema de aprendizaje automático. Soy un experto en todos los oficios tecnológicos, y aunque soy bueno en el análisis de datos básicos y ejecutando todo tipo de consultas de bases de datos, no me considero un científico de datos o un programador de ML. Mis aventuras pasadas con Python se tratan más de piratear interfaces que de crearlas. Y la mayoría de mis habilidades de codificación y análisis, últimamente, se han orientado hacia la explotación de herramientas de aprendizaje automático para propósitos muy específicos relacionados con la investigación de seguridad de la información.

Mi único superpoder real es no tener miedo de intentarlo y fallar. Y con eso, lectores, estoy aquí para flexionar ese superpoder.

La tarea a mano

Aquí hay una tarea en la que algunos escritores de Ars son excepcionalmente buenos: escribir un titular sólido. (Beth Mole, preséntese para recoger su premio).

¡Y escribir titulares es difícil! Es una tarea con muchas limitaciones, siendo la longitud la más grande (los titulares Ars están limitados a 70 caracteres), pero no es ni mucho menos la única. Es un desafío meter en un espacio pequeño suficiente información para provocar una historia de manera precisa y adecuada, al tiempo que se incluyen todas las cosas que tiene que poner en un titular (el tradicional “quién, qué, dónde, cuándo, por qué y cuántos “recopilación de hechos). Algunos de los elementos son dinámicos: un “quién” o un “qué” con un nombre particularmente largo que devora el número de personajes puede realmente arruinar las cosas.

Además, sabemos por experiencia que a los lectores de Ars no les gustan los clickbait y llenarán la sección de comentarios con burla cuando crean que lo ven. También sabemos que hay algunas cosas que la gente voluntad haga clic en sin falta. Y también sabemos que, independientemente del tema, algunos titulares hacen que más personas hagan clic en ellos que en otros. (¿Es esto un clickbait? Hay un argumento filosófico ahí, pero lo principal que separa “un titular en el que todos quieren hacer clic” de “clickbait” es la honestidad del titular: ¿la historia debajo del titular cumple plenamente la promesa del titular?)

Independientemente, sabemos que algunos titulares son más efectivos que otros porque hacemos pruebas A / B de titulares. Cada artículo de Ars comienza con dos posibles titulares asignados, y luego el sitio presenta ambas alternativas en la página de inicio durante un breve período para ver cuál atrae más tráfico.

Ha habido algunos estudios realizados por científicos de datos con mucha más experiencia en modelado de datos y aprendizaje automático que han analizado lo que distingue a los titulares “clickbait” (aquellos diseñados estrictamente para lograr que un gran número de personas hagan clic en un artículo) de “buenos “titulares (aquellos que realmente resumen los artículos detrás de ellos de manera efectiva y no te hacen escribir largas quejas sobre los titulares en Twitter o en los comentarios). Pero estos estudios se han centrado en comprender el contenido de los titulares en lugar de la cantidad de clics reales que obtienen.

Para tener una idea de lo que parece gustarle a los lectores en un titular, y para tratar de entender cómo escribir mejores titulares para la audiencia de Ars, tomé un conjunto de 500 de los titulares de Ars más rápidos de los últimos cinco años e hice algunos procesamiento del lenguaje natural en ellos. Después de eliminar las “palabras vacías”, las palabras que aparecen con más frecuencia en el idioma inglés y que normalmente no están asociadas con el tema del título, genere una nube de palabras para ver qué temas atraen más la atención.

Aquí está: la forma de los titulares de Ars.

Una nube de palabras de las palabras más comunes que han aparecido en los titulares de Ars durante los últimos cinco años.
Agrandar / Una nube de palabras de las palabras más comunes que han aparecido en los titulares de Ars durante los últimos cinco años.

Hay una gran cantidad de Trump allí; los últimos años han incluido muchas noticias tecnológicas que involucran a la administración, por lo que probablemente sea inevitable. Pero estas son solo las palabras de algunos de los titulares ganadores. Quería tener una idea de cuál era la diferencia entre los titulares ganadores y perdedores. Así que volví a tomar el corpus de todos los pares de titulares de Ars y los dividí entre ganadores y perdedores. Estos son los ganadores:

Estas palabras provienen de titulares que ganaron la prueba A / B ...
Agrandar / Estas palabras provienen de titulares que ganaron la prueba A / B …

Y aquí están los perdedores:

... y estas palabras vinieron de titulares que perdieron.
Agrandar / … y estas palabras vinieron de titulares que perdieron.

Recuerde que estos titulares se escribieron exactamente para las mismas historias que los titulares ganadores. Y en su mayor parte, usan las mismas palabras, con algunas diferencias notables. Hay mucho menos “Trump” en los titulares perdedores. “Millón” es muy favorecido en los titulares ganadores, pero algo menos en los perdedores. Y la palabra “puede” —una palabra de titular bastante indecisa— se encuentra con más frecuencia en los titulares perdidos que en los ganadores.

Esta es una información interesante, pero en sí misma no ayuda a predecir si el titular de una historia determinada tendrá éxito. ¿Sería posible utilizar ML para predecir si un título obtendría más o menos clics? ¿Podríamos usar la sabiduría acumulada de los lectores de Ars para hacer una caja negra que pudiera predecir qué titulares serían más exitosos?

Diablos si lo sé, pero vamos a intentarlo.

Todo esto nos lleva a donde estamos ahora: Ars me ha proporcionado datos sobre más de 5.500 pruebas de titulares durante los últimos cuatro años: 11.000 titulares, cada uno con su tasa de clics. Mi misión es crear un modelo de aprendizaje automático que pueda calcular lo que constituye un buen titular de Ars. Y por “bueno” me refiero a uno que te atraiga, querido lector de Ars. Para lograr esto, se me ha dado un pequeño presupuesto para los recursos informáticos de Amazon Web Services y un mes de noches y fines de semana (después de todo, tengo un trabajo diurno). No hay problema, ¿verdad?

Sin embargo, antes de comenzar a buscar Stack Exchange y varios sitios de Git en busca de soluciones mágicas, quería cimentarme en lo que es posible con ML y ver qué personas más talentosas que yo ya han hecho con él. Esta investigación es tanto una hoja de ruta para posibles soluciones como una fuente de inspiración.

Leave a Reply

Your email address will not be published. Required fields are marked *