¿Por qué no podemos confiar en los “ciegos de los grandes datos” para curar las enfermedades del mundo?

Los conjuntos de datos de hoy, aunque más grandes que nunca, todavía nos dan una visión pobre de los seres vivos.

Hubo una vez un ex editor de DyN Noticias, Chris Anderson, que escribió un artículo provocador titulado “El fin de la teoría: la avalancha de datos hace que el método científico sea obsoleto”.

Consideró cómo los científicos tomarían el océano de datos en constante expansión, enviarían un torrente de bits y bytes a un gran embudo y luego lanzarían las asas de enormes computadoras que ejecutan poderosos algoritmos estadísticos para discernir patrones en los que la ciencia no puede.

En resumen, Anderson soñó con el día en que los científicos ya no tuvieran que pensar.

Ocho años después, la inundación está realmente sobre nosotros. Alrededor del 90% de los datos actualmente en el mundo se han creado en los últimos dos años. En las ciencias biológicas, se genera un océano de omas y hay muchas esperanzas de que los macrodatos allanen el camino para una revolución en la medicina.

Pero necesitamos pensar más que nunca.

Con dos coautores de la revista Philosophical Transactions of the Royal Society A, señalé cómo la biología es demasiado compleja para depender de datos recopilados a ciegas.

Y a la inversa, cuando se trata de usar big data para hacer que Einstein sea redundante, mi coautor Ed Dougherty de Texas A&M preguntó: “¿Alguien realmente piensa que la minería de datos podría producir la teoría general de la relatividad?”

Los conjuntos de datos de hoy, aunque más grandes que nunca, todavía nos dan una visión pobre de los seres vivos. Nuestro animal terrestre más grande contiene alrededor de 1.000 billones de células, tiene un genoma de 3.000 millones de letras de código genético, unas 30.000 proteínas, un sinfín de pasajeros microbianos, etc. Si a los extraterrestres del planeta Caecus Data Magna se les presentaran estos datos, ¿deducirían que se estaban reuniendo en un elefante?

Piense en la historia de personas encerradas en una habitación oscura con un pahiderm. Busca a tientas alrededor de la gran bestia: el que toca la cola piensa que tiene una cuerda, otro cree que tiene un árbol, en base a la sensación de un pie o un abanico en el caso de que la persona se acaricie la oreja y así sucesivamente. Se necesita una cantidad asombrosa de datos para capturar las complejidades de la vida.

La respuesta habitual es confiar en el aprendizaje automático, como las redes neuronales artificiales. Pero independientemente de su “profundidad” y sofisticación, estos métodos solo se ajustan a las curvas con los datos disponibles. Formados para reconocer la trompa de un elefante, luchaban cuando se les presentaba por primera vez una oreja, y mucho menos un embrión.

Hace dos décadas, mi coautor Peter Coveney de la University College London utilizó métodos de big data para predecir los tiempos de espesamiento de suspensiones complejas en espectros de polvo de cemento. A pesar de que esta se ha convertido en una oferta comercial exitosa, todavía no entendemos qué está sucediendo a nivel molecular para ayudar a desarrollar nuevos materiales.

Es más probable que el dragado de datos ciegos produzca pistas falsas. Las correlaciones falsas son un problema familiar para quienes utilizan el aprendizaje automático para encontrar fármacos prometedores. Lo mismo ocurre con la vinculación de genes de enfermedades. Un estudio reciente de 61.000 exomas (partes de su código genético que producen proteínas) encontró que solo 9 de 192 supuestas “variantes patógenas” tenían una fuerte asociación con la enfermedad. La sobreestimación de los niveles máximos de influenza por parte de Google Flu Trends nos recuerda que el éxito pasado en la descripción de epidemias no es una garantía de desempeño futuro: debemos tener mucho cuidado al extrapolar los datos existentes.

Existen otras limitaciones, entre ellas que los datos no siempre son fiables (“la mayoría de los resultados de las investigaciones publicadas son falsas”, como lo informó John Ioannidis en PLOS Medicine). Los cuerpos son dinámicos y cambian constantemente, mientras que los conjuntos de datos a menudo solo proporcionan instantáneas y siempre son retrospectivos.

Los investigadores aún deben hacer las preguntas correctas para crear una hipótesis, diseñar una prueba y usar los datos para determinar si esa hipótesis es cierta. Vimos el poder de este enfoque en el Gran Colisionador de Hadrones del CERN, que genera un petabyte de datos todos los días, el equivalente a unos 210.000 DVD. Aunque el descubrimiento del bosón de Higgs requirió una gran cantidad de datos, los físicos utilizaron la teoría para iniciar y guiar su búsqueda.

De la misma manera, no predecimos el clima de mañana promediando los registros históricos del clima de ese día. Los modelos matemáticos funcionan mucho mejor con datos satelitales en tiempo real. Es por eso que un equipo de Los Alamos utiliza la teoría para ayudar a guiar, mejorar y refinar el desarrollo de nuevos materiales. Dirigen la recolección de datos utilizando métodos probabilísticos bayesianos, con un proyecto experimental impulsado por una perspectiva teórica.

Una mezcla de teoría y medición es cómo progresar también en la medicina. Por ejemplo, el equipo de Peter Coveney mostró cómo diseñar un medicamento basado en la estructura genética de una persona en cuestión de horas. Utiliza la dinámica newtoniana y el cálculo de peso para explorar cómo las moléculas de fármaco candidatas interactúan con una proteína objetivo en el cuerpo.

A la larga, necesitamos modelos matemáticos del cuerpo humano (ya tenemos un corazón que late bastante bien). Luego, en unas pocas décadas, un médico podrá crear un modelo virtual de usted, personalizado con sus propios datos. Ella podrá tratar, diseccionar y explorar el doppelgänger digital antes de experimentar contigo. Cuando amanezca ese día, tendremos una verdadera medicina personalizada.

Todas las noticias de la ciencia de todo el mundo en un sólo sitio. noticias de Ciencia.