Liberando nuestra IA de predicción de ataques cardíacos con herramientas “sin código”

¡Ahhh, el botón fácil!
Agrandar / ¡Ahhh, el botón fácil!

Aurich Lawson | imágenes falsas

Este es el segundo episodio de nuestra exploración del aprendizaje automático “sin código”. En nuestro primer artículo, presentamos nuestro conjunto de problemas y discutimos los datos que usaríamos para probar si una herramienta de ML altamente automatizada diseñada para analistas de negocios podría arrojar resultados r entables cercanos a la calidad de métodos más intensivos en código que involucran un poco más humanos. -ciencia de datos impulsada.

Si no has leído ese artículo, deberías volver y al menos hojearlo. Si está listo, revisemos lo que haríamos con nuestros datos de ataque cardíaco en condiciones de aprendizaje automático “normales” (es decir, más intensivos en código) y luego desechemos todo eso y presionemos el botón “fácil”.

Como discutimos anteriormente, estamos trabajando con un conjunto de datos de salud cardíaca derivados de un estudio en el Instituto Clínico de Cleveland y el Instituto Húngaro de Cardiología en Budapest (así como en otros lugares cuyos datos hemos descartado por razones de calidad). Todos esos datos están disponibles en un repositorio que hemos creado en GitHub, pero su forma original es parte de un repositorio de datos mantenido para proyectos de aprendizaje automático por la Universidad de California-Irvine. Estamos utilizando dos versiones del conjunto de datos: una más pequeña y completa que consta de 303 registros de pacientes de la Clínica Cleveland y una base de datos más grande (597 pacientes) que incorpora los datos del Instituto Húngaro pero le faltan dos de los tipos de datos de el conjunto más pequeño.

Los dos campos que faltan en los datos húngaros parecen potencialmente importantes, pero los datos de la Clínica Cleveland en sí mismos pueden ser un conjunto demasiado pequeño para algunas aplicaciones de aprendizaje automático, por lo que intentaremos cubrir nuestras bases con ambos.

El plan

Con múltiples conjuntos de datos disponibles para entrenamiento y pruebas, era hora de comenzar a trabajar. Si hiciéramos esto de la forma en que lo hacen normalmente los científicos de datos (y de la forma en que lo intentamos el año pasado), estaríamos haciendo lo siguiente:

  1. Divida los datos en un conjunto de entrenamiento y un conjunto de prueba
  2. Use los datos de entrenamiento con un tipo de algoritmo existente para crear el modelo
  3. Valide el modelo con el conjunto de prueba para verificar su precisión

Podríamos hacer todo eso codificándolo en un cuaderno Jupyter y modificando el modelo hasta lograr una precisión aceptable (como hicimos el año pasado, en un ciclo perpetuo). Pero en cambio, primero probaremos dos enfoques diferentes:

  • Un enfoque “sin código” que utiliza Sagemaker Canvas de AWS: Canvas toma los datos como un todo, los divide automáticamente en entrenamiento y prueba, y genera un algoritmo predictivo
  • Otro enfoque de “código bajo/sin código” usando Sagemaker Studio Jumpstart y AutoML: AutoML es una gran parte de lo que se encuentra detrás de Canvas; evalúa los datos y prueba varios tipos de algoritmos diferentes para determinar cuál es el mejor

Una vez hecho esto, daremos un giro utilizando uno de los muchos enfoques de ML probados en batalla que los científicos de datos ya han probado con este conjunto de datos, algunos de los cuales han afirmado tener una precisión de más del 90 por ciento.

El producto final de estos enfoques debería ser un algoritmo que podamos usar para ejecutar una consulta predictiva basada en los puntos de datos. Pero el resultado real será una mirada a las ventajas y desventajas de cada enfoque en términos de tiempo de finalización, precisión y costo del tiempo de cómputo. (En nuestra última prueba, AutoML en sí prácticamente superó todo nuestro presupuesto de crédito de cómputo de AWS).

Leave a Reply

Your email address will not be published.