Nuestro experimento de titulares de IA continúa: ¿Rompimos la máquina?

Nuestro experimento de titulares de IA continúa: ¿Rompimos la máquina?

Aurich Lawson | imágenes falsas

Ahora estamos en la fase tres de nuestro proyecto de aprendizaje automático, es decir, hemos superado la negación y la ira, y ahora nos deslizamos hacia la negociación y la depresión. Me han encomendado la tarea de utilizar el tesoro de datos de Ars Technica de cinco años de pruebas de titulares, que combinan dos ideas entre sí en una Prueba “A / B”

para permitir a los lectores determinar cuál usar para un artículo. El objetivo es intentar construir un algoritmo de aprendizaje automático que pueda predecir el éxito de cualquier titular. Y desde mi último registro, no estaba yendo según lo planeado.

También había gastado unos dólares en tiempo de computación de Amazon Web Services para descubrir esto. La experimentación puede resultar un poco cara. (Insinuación: Si tiene un presupuesto limitado, no utilice el modo “Piloto automático”).

Probamos algunos enfoques para analizar nuestra colección de 11.000 titulares de 5.500 pruebas de titulares: mitad ganadores, mitad perdedores. Primero, habíamos tomado todo el corpus en forma de valores separados por comas y probamos un “Ave María” (o, como lo veo en retrospectiva, un “Leeroy Jenkins“) con la herramienta Autopilot en SageMaker Studio de AWS. Esto volvió con un resultado de precisión en la validación del 53 por ciento. Esto resulta no ser tan malo, en retrospectiva, porque cuando usé un modelo creado específicamente para el procesamiento de lenguaje natural —AWS ‘ BlazingText—El resultado fue una precisión del 49 por ciento, o incluso peor que el lanzamiento de una moneda al aire. (Si mucho de esto suena como una tontería, por cierto, recomiendo volver a visitar la Parte 2, donde repaso estas herramientas con mucho más detalle).

Fue un poco reconfortante y también un poco desalentador que el evangelista técnico de AWS Julien Simon tuviera una falta similar de suerte con nuestros datos. Difícil un modelo alternativo con nuestro conjunto de datos en modo de clasificación binaria, solo obtuvimos una tasa de precisión del 53 al 54 por ciento. Así que ahora era el momento de averiguar qué estaba pasando y si podríamos solucionarlo con algunos ajustes del modelo de aprendizaje. De lo contrario, podría ser el momento de adoptar un enfoque completamente diferente.

Leave a Reply

Your email address will not be published. Required fields are marked *