modelado covid-19, Youyang Gu, aprendizaje automático, ciencia de datos

“Quedó claro que no alcanzaremos la inmunidad colectiva en 2021, al menos definitivamente no en todo el país”, dice. “Y creo que es importante, especialmente si estás tratando de infundir confianza, que hagamos caminos sensatos para cuando podamos volver a la normalidad. No deberíamos vincular eso a un objetivo poco realista como alcanzar la inmunidad colectiva. Sigo siendo cautelosamente optimista de que mi pronóstico original en febrero, para un regreso a la normalidad en el verano, será válido “.

A principios de marzo, empacó la tienda por completo; pensó que había hecho la contribución que pudo. “Quería dar un paso atrás y dejar que los demás modeladores y expertos hicieran su trabajo”, dice. “No quiero confundir el espacio”.

Todavía está atento a los datos, investigando y analizando las variantes, el lanzamiento de la vacuna y la cuarta ola. “Si veo algo que es particularmente preocupante o preocupante de lo que creo que la gente no está hablando, definitivamente lo publicaré”, dice. Pero por el momento se está enfocando en otros proyectos, como “Acciones YOLO, ”Una plataforma de análisis de cotizaciones bursátiles. Su principal trabajo en pandemias es como miembro del grupo asesor técnico de la Organización Mundial de la Salud sobre la evaluación de la mortalidad por covid-19, donde comparte la experiencia de un forastero.

“Definitivamente he aprendido mucho el año pasado”, dice Gu. “Fue muy revelador”.

Lección n. ° 1: Enfóquese en los fundamentos

“Desde la perspectiva de la ciencia de datos, mis modelos han demostrado la importancia de la simplicidad, que a menudo se subestima”, dice Gu. Su modelo de pronóstico de muerte era simple no solo en su diseño, el componente SEIR con una capa de aprendizaje automático, sino también en su enfoque muy reducido y “de abajo hacia arriba” con respecto a los datos de entrada. De abajo hacia arriba significa “comenzar desde lo básico y agregar complejidad según sea necesario”, dice. “Mi modelo solo usa muertes pasadas para predecir muertes futuras. No utiliza ninguna otra fuente de datos real “.

Gu notó que otros modelos se basaron en una variedad ecléctica de datos sobre casos, hospitalizaciones, pruebas, movilidad, uso de mascarillas, comorbilidades, distribución de edad, demografía, estacionalidad de la neumonía, tasa anual de mortalidad por neumonía, densidad de población, contaminación del aire, altitud, datos de tabaquismo, -contactos informados, tráfico de pasajeros de aerolíneas, puntos de atención, termómetros inteligentes, publicaciones en Facebook, búsquedas en Google y más.

“Existe la creencia de que si agrega más datos al modelo, o lo hace más sofisticado, entonces el modelo funcionará mejor”, dice. “Pero en situaciones reales como la pandemia, donde los datos son tan ruidosos, desea que las cosas sean lo más simples posible”.

“Decidí desde el principio que las muertes pasadas son el mejor predictor de muertes futuras. Es muy simple: entrada, salida. Agregar más fuentes de datos solo hará que sea más difícil extraer la señal del ruido “.

Lección n. ° 2: Minimice las suposiciones

Gu considera que tenía una ventaja al abordar el problema con una pizarra en blanco. “Mi objetivo era simplemente seguir los datos de covid para aprender sobre covid”, dice. “Ese es uno de los principales beneficios de la perspectiva de un extraño”.

Pero al no ser epidemiólogo, Gu también tenía que estar seguro de que no estaba haciendo suposiciones incorrectas o inexactas. “Mi función es diseñar el modelo de manera que pueda aprender las suposiciones por mí”, dice.

“Cuando aparecen nuevos datos que van en contra de nuestras creencias, a veces tendemos a pasar por alto esos nuevos datos o ignorarlos, y eso puede tener repercusiones en el futuro”, señala. “Ciertamente me encontré siendo víctima de eso, y sé que muchas otras personas también lo han hecho”.

“Por lo tanto, ser conscientes del sesgo potencial que tenemos y reconocerlo, y poder ajustar nuestras creencias previas, ajustar nuestras creencias si los nuevos datos las refutan, es realmente importante, especialmente en un entorno de rápido movimiento como el que hemos visto con COVID-19.”

Lección # 3: Prueba la hipótesis

“Lo que he visto en los últimos meses es que cualquiera puede hacer afirmaciones o manipular datos para que se ajusten a la narrativa de lo que quieren creer”, dice Gu. Esto resalta la importancia de simplemente hacer hipótesis comprobables.

“Para mí, esa es toda la base de mis proyecciones y pronósticos. Tengo un conjunto de suposiciones, y si esas suposiciones son ciertas, entonces esto es lo que predecimos que sucederá en el futuro ”, dice. “Y si las suposiciones terminan siendo incorrectas, entonces, por supuesto, tenemos que admitir que las suposiciones que hacemos no son ciertas y ajustarlas en consecuencia. Si no formula hipótesis comprobables, no hay forma de demostrar si en realidad tiene razón o está equivocado “.

Lección # 4: Aprenda de los errores

“No todas las proyecciones que hice fueron correctas”, dice Gu. En mayo de 2020, proyectó 180.000 muertes en los EE. UU. Para agosto. “Eso es mucho más alto de lo que vimos”, recuerda. Su hipótesis comprobable resultó incorrecta: “y eso me obligó a ajustar mis suposiciones”.

En ese momento, Gu estaba usando una tasa de mortalidad por infección fija de aproximadamente el 1% como constante en el simulador SEIR. Cuando en el verano redujo la tasa de mortalidad por infección a aproximadamente el 0,4% (y luego a aproximadamente el 0,7%), sus proyecciones volvieron a un rango más realista.

Lección # 5: Involucrar a los críticos

“No todo el mundo estará de acuerdo con mis ideas, y eso lo agradezco”, dice Gu, quien usó Twitter para publicar sus proyecciones y análisis. “Intento responder a la gente tanto como puedo, defender mi posición y debatir con la gente. Te obliga a pensar cuáles son tus suposiciones y por qué crees que son correctas “.

“Se remonta al sesgo de confirmación”, dice. “Si no soy capaz de defender adecuadamente mi posición, ¿es realmente el reclamo correcto y debería hacer estos reclamos? Me ayuda a comprender, al relacionarme con otras personas, cómo pensar sobre estos problemas. Cuando otras personas presentan evidencia que contradice mis posiciones, tengo que ser capaz de reconocer cuándo puedo estar equivocado en algunas de mis suposiciones. Y eso me ha ayudado enormemente a mejorar mi modelo “.

Lección n. ° 6: ejercite un escepticismo saludable

“Ahora soy mucho más escéptico de la ciencia, y no es algo malo”, dice Gu. “Creo que es importante cuestionar siempre los resultados, pero de forma saludable. Es una línea muy fina. Porque mucha gente simplemente rechaza rotundamente la ciencia, y esa tampoco es la forma de hacerlo “.

“Pero creo que también es importante no confiar ciegamente en la ciencia”, continúa. “Los científicos no son perfectos”. Es apropiado, dice, si algo no parece correcto, hacer preguntas y encontrar explicaciones. “Es importante tener diferentes perspectivas. Si hay algo que hemos aprendido durante el año pasado, es que nadie está 100% correcto todo el tiempo “.

“No puedo hablar por todos los científicos, pero mi trabajo es cortar todo el ruido y llegar a la verdad”, dice. “No estoy diciendo que haya sido perfecto durante el último año. Me he equivocado muchas veces. Pero creo que todos podemos aprender a abordar la ciencia como un método para encontrar la verdad, en lugar de la verdad en sí “.