AI DeepMind finalmente ha demostrado lo útil que puede ser

AlphaFold proporcionó la imagen más clara del proteoma humano hasta la fecha. Ahora, DeepMind pone su trabajo a disposición del mundo

Marcelo Sousa, bioquímico de la Universidad de Colorado Boulder, pasó diez años tratando de resolver un rompecabezas muy complicado. Sousa y su equipo recopilaron datos experimentales sobre una única proteína bacteriana relacionada con la resistencia a los antibióticos. Esperando que el desarrollo de su estructura ayude a encontrar inhibidores que puedan detener la construcción de esta resistencia. Pero, año tras año, el enigma seguía sin resolverse. Luego vino AlphaFold. En 15 minutos, el sistema de aprendizaje automático de DeepMind resolvió la estructura.

Es el tipo de resultado que pronto podría repetirse en laboratorios de todo el mundo. En un artículo publicado en la revista Nature, DeepMind publicó más de 350.000 estructuras de proteínas previstas. Esto incluye todo el proteoma humano, las proteínas que forman el cuerpo humano. Estas estructuras proyectadas podrían incluir información clave sobre enfermedades como el cáncer y el Alzheimer, la posibilidad de nuevos medicamentos e incluso mejores formas de reciclar plástico.

Para poner este número en contexto, la base de datos de Universal Protein, una colección de proteínas que la ciencia ha descubierto hasta ahora, contiene más de 180 millones de secuencias de proteínas. Estas secuencias de proteínas nos dicen cómo se ordenan los aminoácidos en una proteína, pero esto es solo el comienzo del rompecabezas. Para comprender realmente cómo funcionan las proteínas en el cuerpo, necesitamos saber cómo esta secuencia determina la estructura 3D de la proteína, y esta es una tarea mucho más difícil que simplemente conocer el orden correcto de los aminoácidos.

De los 180 millones de secuencias de proteínas, los científicos han desarrollado hasta ahora la estructura de solo 180.000 proteínas. La nueva base de datos DeepMind proporciona predicciones para más del doble de la cantidad de estructuras de proteínas conocidas hasta la fecha. Ahora los biólogos podrán trabajar para comprender cómo interactúan y funcionan las proteínas, y más allá de eso, el diseño de nuevas proteínas, lo que permitirá un descubrimiento más rápido de medicamentos, descifrar las variaciones genéticas que causan enfermedades y más. «Las proteínas tienen mucho más que estructura, por lo que debemos unirlas», dice Janet Thornton, directora emérita del Instituto Europeo de Bioinformática EMBL. «Es un componente de esta comprensión más amplia de cómo funciona la vida».

En los próximos meses, el equipo de AlphaFold planea liberar 100 millones de estructuras de proteínas. Pasaremos de que las estructuras proteicas sean un recurso muy valioso a [them] cayendo en cada esquina ”, dice John Jumper, investigador principal de AlphaFold.

AlphaFold superó el problema del plegamiento de proteínas en diciembre de 2020, cuando el equipo de DeepMind ganó en CASP, Critical Evaluation of Protein Structure Prediction. En ese momento, la compañía prometió hacer que los datos y el código estuvieran disponibles abiertamente. Menos de ocho meses después, en julio de 2021, DeepMind publicó el código y la metodología AlphaFold 2 completos en Nature, y ahora ha anunciado que se utilizará de forma gratuita a través de una asociación con el Laboratorio Europeo de Biología Molecular (EMBL) para compartir este masivo recurso, que se llamará la base de datos de estructura de proteínas AlphaFold. «Creemos que esta es la contribución más significativa que la IA ha hecho hasta la fecha para avanzar en el estado del conocimiento científico», dijo Demis Hassabis, director ejecutivo y cofundador de DeepMind, en una rueda de prensa.

Todos los seres vivos de la Tierra están hechos de proteínas: simples cadenas de aminoácidos que se pliegan desde una cadena lineal en formas tridimensionales complejas y compactas. Una proteína se puede plegar de un número casi infinito de formas antes de alcanzar su estructura final. En 1972, durante su discurso de aceptación del Premio Nobel, Christian Anfinsen propuso que la estructura de la proteína fuera determinada por su secuencia de aminoácidos. Pero la prueba fue un juego de pelota completamente diferente, y el problema del plegamiento de proteínas fue un dolor de cabeza que atormentó y desconcertó a los científicos durante 50 años.

Tradicionalmente, la investigación se ha basado en métodos costosos y lentos para desarrollar estructuras como la cristalografía de rayos X y la microscopía electrónica. Un biólogo puede tardar desde unos meses hasta un año en resolver el rompecabezas; algunos han invertido todo su doctorado en intentar resolverlo por su cuenta. «Incluso entonces, el éxito no está garantizado: algunas proteínas son estructuras notoriamente difíciles de encontrar», dice Pushmeet Kohli, director de inteligencia artificial para la ciencia en DeepMind. Con esta nueva base de datos, para una gran cantidad de proteínas, cualquier investigador podrá obtener su estructura en tan solo unos minutos.

En su artículo más reciente, el equipo de DeepMind mostró AlphaFold en acción, aplicándolo para predecir la estructura del 98,5% de las proteínas humanas. El equipo también incluyó las estructuras del proteoma de 20 organismos modelo clave importantes para la investigación biológica, como la mosca de la fruta y E. coli.

Para guiar a los investigadores que desean utilizar predicciones de la estructura de las proteínas en su propio trabajo, el equipo proporcionó medidas confiables, etiquetando qué predicciones consideraron más confiables. La poca confianza en una estructura deja a los investigadores a tientas en la oscuridad. Pero proporcionar indicadores confiables significa que los científicos sabrán en qué confiar y las estructuras predichas que deben verificarse dos veces utilizando otros métodos. Alphafold ha logrado predecir más de un tercio de los residuos, los aminoácidos que componen una proteína, en el proteoma humano con gran confianza y casi el 60% cae en la siguiente categoría de confianza. Poniendo los dos paréntesis juntos, el sistema puede predecir la forma de la proteína con una precisión casi experimental alrededor de dos tercios del tiempo. Anteriormente, a pesar de años de investigación, solo el 17% de las estructuras de aminoácidos del proteoma humano se determinaban experimentalmente.

Hay ciertas regiones de proteínas en las que AlphaFold solo podría proporcionar una predicción de baja confianza, pero el equipo cree que este es un hallazgo importante, a diferencia de una falla tecnológica. Cuando Jumper y sus colegas comenzaron a ver este resultado, entraron en pánico, dice Jumper. Pero cuando miraron más de cerca, se dieron cuenta de que estas estructuras eran en realidad proteínas que se sabía que estaban intrínsecamente desordenadas. “No tiene una estructura fija y por eso no recibes ninguna respuesta. Y eso es valioso para los experimentadores «, dice Jumper.

Al igual que con Sousa, DeepMind ha estado alquilando su base de datos a otros investigadores durante algún tiempo. John McGeehan, profesor de biología estructural en la Universidad de Portsmouth que busca enzimas que puedan biodegradar los plásticos desechables, usó AlphaFold para probar las estructuras cristalinas de su equipo contra las estructuras predichas que devolvió AlphaFold. Descubrió que no solo eran idénticos, sino que contenían incluso más información de la que las estructuras cristalinas podían proporcionar.

AlphaFold no reemplazará completamente el uso de métodos experimentales para determinar estructuras, sino que los dos se complementarán entre sí. Primero, las áreas donde la predicción no es tan confiable requerirán otros medios para resolver la estructura de una proteína. «No creo que estemos todavía en el punto en el que podamos tomar las predicciones al pie de la letra y asumir que son correctas», dice Sousa.

El éxito de AlphaFold en este artículo puede no ser un gran impacto para muchos científicos; más bien, más como una confirmación de las capacidades ya sospechadas de tal tecnología, dice Andrei Lupas, director del Instituto Max Planck de Biología del Desarrollo y evaluador en CASP. Los sistemas similares siguen muy de cerca. Los académicos de la Universidad de Washington ya han diseñado una herramienta de predicción de proteínas similar a AlphaFold 2 llamada RoseTTaFold. «Yo diría que a finales de este año tendremos más predictores de la estructura de las proteínas de alto rendimiento», dice Lupas.

También puede haber cierto escepticismo entre la comunidad de biología estructural. Después de todo, las estructuras predichas son predicciones y los niveles de confianza pueden variar. «Para los biólogos estructurales, no creo que nunca se queden sin trabajo porque quieran ver si esas estructuras son correctas», dice Andrew Martin, profesor de bioinformática y biología computacional en el University College de Londres y ex CASP participante y evaluador. «Claramente es un gran avance en todo lo que existe en este momento, pero aún así, no es necesariamente la respuesta final».

En esencia, las noticias muestran que esto es algo que la IA puede hacer mejor. «Somos basura al predecir las estructuras de las proteínas», dice Jumper. El matrimonio con el aprendizaje automático y la biología no solo significa hacer algo mejor, significa hacer algo que la gente no puede hacer en absoluto.

Todas las noticias de la ciencia de el planeta tierra en un sólo sitio. noticias de Ciencia.