Conoce a las personas que advierten al mundo sobre las nuevas variantes de covid

En marzo de 2020, cuando la OMS declaró una pandemia, la base de datos pública de secuencias GISAID contenía 524 secuencias de covid. Durante el mes siguiente, los científicos subieron 6.000 más. A finales de mayo, el total superaba los 35.000. (En contraste, los científicos globales agregaron 40,000 secuencias de gripe a GISAID en todo 2019).

“Sin un nombre, olvídalo, no podemos entender lo que otras personas están diciendo”, dice Anderson Brito, un postdoctorado en epidemiología genómica en la Escuela de Salud Pública de Yale, quien contribuye al esfuerzo de Pango.

A medida que la cantidad de secuencias covid aumentaba en espiral, los investigadores que intentaban estudiarlas se vieron obligados a crear una infraestructura y estándares completamente nuevos sobre la marcha. Un sistema de nombres universal ha sido uno de los elementos más importantes de este esfuerzo: sin él, los científicos tendrían dificultades para hablar entre ellos sobre cómo los descendientes del virus están viajando y cambiando, ya sea para señalar una pregunta o, aún más críticamente, para suena la alarma.

De donde vino Pango

En abril de 2020, un puñado de virólogos destacados en el Reino Unido y Australia propuso un sistema de letras y números para nombrar linajes, o nuevas ramas, de la familia covid. Tenía una lógica y una jerarquía, aunque los nombres que generaba, como B.1.1.7, eran un poco complicados.

Una de las autoras del artículo fue Áine O’Toole, candidata a doctorado en la Universidad de Edimburgo. Pronto se convertiría en la primera persona que realmente hacía esa clasificación y clasificación, y eventualmente revisaba cientos de miles de secuencias a mano.

Ella dice: “Desde el principio, era solo quién estaba disponible para comisariar las secuencias. Ese terminó siendo mi trabajo durante un buen rato. Supongo que nunca entendí la escala a la que íbamos a llegar “.

Rápidamente se dedicó a crear software para asignar nuevos genomas a los linajes correctos. No mucho después de eso, otra investigadora, la postdoctoral Emily Scher, construyó un algoritmo de aprendizaje automático para acelerar aún más las cosas.

“Sin un nombre, olvídalo, no podemos entender lo que dicen otras personas”.

Anderson Brito, Escuela de Salud Pública de Yale

Llamaron al software Pangolin, una referencia irónica a un debate sobre el origen animal del covid. (Todo el sistema ahora se conoce simplemente como Pango).

El sistema de nombres, junto con el software para implementarlo, se convirtió rápidamente en un elemento esencial a nivel mundial. Aunque la OMS ha comenzado recientemente a usar letras griegas para variantes que parecen especialmente preocupantes, como delta, esos apodos son para el público y los medios de comunicación. Delta en realidad se refiere a una familia creciente de variantes, que los científicos llaman por sus nombres Pango más precisos: B.1.617.2, AY.1, AY.2 y AY.3.

“Cuando surgió alfa en el Reino Unido, Pango nos facilitó la búsqueda de esas mutaciones en nuestros genomas para ver si también teníamos ese linaje en nuestro país”, dice Jolly. “Desde entonces, Pango se ha utilizado como base para la notificación y la vigilancia de variantes en la India”.

Debido a que Pango ofrece un enfoque racional y ordenado de lo que de otro modo sería el caos, puede cambiar para siempre la forma en que los científicos nombran las cepas virales, lo que permite a expertos de todo el mundo trabajar juntos con un vocabulario compartido. Brito dice: “Lo más probable es que este sea un formato que usaremos para rastrear cualquier otro virus nuevo”.

Muchas de las herramientas fundamentales para rastrear genomas de covid han sido desarrolladas y mantenidas por científicos de carrera temprana como O’Toole y Scher durante el último año y medio. A medida que explotó la necesidad de colaboración mundial de Covid, los científicos se apresuraron a respaldarla con una infraestructura ad hoc como Pango. Gran parte de ese trabajo recayó en jóvenes investigadores expertos en tecnología de entre 20 y 30 años. Utilizaron redes informales y herramientas que eran de código abierto, lo que significa que eran de uso gratuito y cualquiera podía ofrecerse como voluntario para agregar ajustes y mejoras.

“Las personas que están a la vanguardia de las nuevas tecnologías tienden a ser estudiantes de posgrado y posdoctorados”, dice Angie Hinrichs, bioinformática de UC Santa Cruz que se unió al proyecto Pangolin a principios de este año. Por ejemplo, O’Toole y Scher trabajan en el laboratorio de Andrew Rambaut, un epidemiólogo genómico que publicó las primeras secuencias públicas de covid en línea después de recibirlas de científicos chinos. “Simplemente estaban perfectamente ubicados para proporcionar estas herramientas que se volvieron absolutamente críticas”, dice Hinrichs.

Construyendo rapido

No ha sido fácil. Durante la mayor parte de 2020, O’Toole asumió la mayor parte de la responsabilidad de identificar y nombrar nuevos linajes por sí misma. La universidad estaba cerrada, pero ella y otra de las estudiantes de doctorado de Rambaut, Verity Hill, obtuvieron permiso para ingresar a la oficina. Su viaje diario, caminar 40 minutos hasta la escuela desde el apartamento donde vivía sola, le dio cierta sensación de normalidad.

Cada pocas semanas, O’Toole descargaba todo el repositorio de covid de la base de datos GISAID, que había crecido exponencialmente cada vez. Luego buscaba grupos de genomas con mutaciones que parecieran similares, o cosas que parecieran extrañas y que pudieran haber sido mal etiquetadas.

Cuando estaba particularmente atascada, Hill, Rambaut y otros miembros del laboratorio colaboraban para discutir las designaciones. Pero el trabajo pesado recayó sobre ella.

“Imagínese pasar por 20.000 secuencias de 100 lugares diferentes del mundo. Vi secuencias de lugares de los que nunca había oído hablar”.

Áine O’Toole, Universidad de Edimburgo

Decidir cuándo los descendientes del virus merecen un nuevo apellido puede ser tanto un arte como una ciencia. Fue un proceso minucioso, examinar una cantidad inaudita de genomas y preguntar una y otra vez: ¿Es esta una nueva variante de covid o no?

“Fue bastante tedioso”, dice. “Pero siempre fue una lección de humildad. Imagínese pasar por 20.000 secuencias de 100 lugares diferentes del mundo. Vi secuencias de lugares de los que nunca había oído hablar “.

Conforme pasó el tiempo, O’Toole luchó por mantenerse al día con el volumen de nuevos genomas para clasificar y nombrar.

En junio de 2020, había más de 57.000 secuencias almacenadas en la base de datos de GISAID, y O’Toole las había clasificado en 39 variantes. Para noviembre de 2020, un mes después de que se suponía que debía entregar su tesis, O’Toole realizó su última prueba en solitario a través de los datos. Tardó 10 días en repasar todas las secuencias, que para ese entonces sumaban 200.000. (Aunque covid ha eclipsado su investigación sobre otros virus, está poniendo un capítulo sobre Pango en su tesis).

Afortunadamente, el software Pango está diseñado para ser colaborativo y otros se han intensificado. Una comunidad en línea —a la que recurrió Jolly cuando notó la variante que se extendía por la India— brotó y creció. Este año, el trabajo de O’Toole ha sido mucho más sencillo. Los nuevos linajes ahora se designan principalmente cuando los epidemiólogos de todo el mundo se ponen en contacto con O’Toole y el resto del equipo a través de Twitter, correo electrónico o GitHub, su método preferido.

“Ahora es más reaccionario”, dice O’Toole. “Si un grupo de investigadores en algún lugar del mundo está trabajando en algunos datos y creen que han identificado un nuevo linaje, pueden presentar una solicitud”.

El diluvio de datos ha continuado. La primavera pasada, el equipo celebró un “pangothon”, una especie de hackatón en el que clasificaron 800.000 secuencias en alrededor de 1.200 linajes.

“Nos dimos tres días completos”, dice O’Toole. “Tomó dos semanas”.

Desde entonces, el equipo de Pango ha reclutado a algunos voluntarios más, como el investigador Hindriks de UCSC y el investigador de Yale Brito, quienes se involucraron inicialmente al agregar sus dos centavos en Twitter y la página de GitHub. Un postdoctorado en la Universidad de Cambridge, Chris Ruis, ha centrado su atención en ayudar a O’Toole a eliminar la acumulación de solicitudes de GitHub.

O’Toole recientemente les pidió que se unieran formalmente a la organización como parte de la recién creada Pango Network. Comité de Designación de Linaje, que analiza y toma decisiones sobre nombres de variantes. Otro comité, que incluye al líder del laboratorio Rambaut, toma decisiones de alto nivel.

“Tenemos un sitio web y un correo electrónico que no es solo mi correo electrónico”, dice O’Toole. “Se ha vuelto mucho más formalizado y creo que eso realmente lo ayudará a escalar”.

El futuro

Algunas grietas alrededor de los bordes han comenzado a mostrarse a medida que aumentaron los datos. A día de hoy, hay casi 2,5 millones de secuencias covid en GISAID, que el equipo de Pango ha dividido en 1300 ramas. Cada rama corresponde a una variante. De ellos, ocho son los que hay que vigilar, según la OMS.

Con tanto que procesar, el software está empezando a fallar. Las cosas están mal etiquetadas. Muchas cepas tienen un aspecto similar, porque el virus desarrolla las mutaciones más ventajosas una y otra vez.

Como medida provisional, el equipo ha creado un nuevo software que utiliza un método de clasificación diferente y puede detectar cosas que Pango puede pasar por alto.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.