Los modelos de lenguaje natural podrían explicar el origen de las enfermedades

Un estudio de la Universidad de Cambridge ha demostrado que los modelos de procesamiento del lenguaje natural tienen el potencial de descifrar el “lenguaje biológico” del Alzheimer y otras enfermedades neurodegenerativas, lo que podría desempeñar un papel en la investigación médica para el que los humanos son incapaces.

Los investigadores adoptaron un enfoque similar al utilizado por las empresas tecnológicas para generar predicciones basadas en el comportamiento previo de los usuarios, como el texto sugerido en los correos electrónicos y mensajes o las recomendaciones de contenido.

Kadi Liis Saar, primera autora del estudio, entrenó un modelo lingüístico a gran escala para ver qué ocurre cuando las proteínas actúan incorrectamente causando enfermedades. Las proteínas son moléculas grandes y complejas, fundamentales para la función, la estructura y la regulación de los tejidos y órganos del cuerpo.

“El cuerpo humano alberga miles y miles de proteínas y los científicos aún no conocen la función de muchas de ellas. Le pedimos a un modelo de lenguaje basado en redes neuronales que aprendiera el lenguaje de las proteínas”, explicó. “En concreto, pedimos al programa que aprendiera el lenguaje de los condensados biomoleculares cambiantes -gotas de proteínas que se encuentran en las células- que los científicos realmente necesitan comprender para descifrar el lenguaje de la función biológica y el mal funcionamiento que causan el cáncer y las enfermedades neurodegenerativas como el Alzheimer”.

“Descubrimos que podía aprender, sin que se le dijera explícitamente, lo que los científicos ya habían descubierto sobre el lenguaje de las proteínas durante décadas de investigación”.

Una de las áreas en las que se centraron los científicos fue el comportamiento de las proteínas en enfermedades neurodegenerativas como el Alzheimer, el Parkinson y la enfermedad de Huntington. En la enfermedad de Alzheimer, las proteínas se vuelven “rebeldes”, forman grupos y matan a las células nerviosas sanas; un cerebro sano tiene un sistema para eliminar eficazmente estas peligrosas masas de proteínas (agregados). Los científicos creen que algunas proteínas desordenadas también forman gotas de proteínas llamadas condensados que no tienen membrana y que se fusionan libremente entre sí. A diferencia de los agregados de proteínas, los condensados de proteínas pueden formarse y reformarse.

Los investigadores introdujeron todos los datos que tenían sobre las proteínas conocidas, de modo que su modelo pudiera aprender a predecir el “lenguaje de las proteínas” del mismo modo que los modelos aprenden a predecir el lenguaje humano. A partir de estos datos, los investigadores pudieron explorar los patrones que hacen que sólo ciertas proteínas formen condensados. Desbloquear esta comprensión ayudará a los científicos a aprender las “reglas del lenguaje de las enfermedades”.

“Los condensados de proteínas han atraído recientemente mucha atención en el mundo científico porque controlan acontecimientos clave en la célula como la expresión génica [cómo nuestro ADN se convierte en proteínas] y la síntesis de proteínas [cómo las células fabrican proteínas]”, dijo el profesor Tuomas Knowles, autor principal del estudio. “Cualquier defecto relacionado con estas gotas de proteína puede dar lugar a enfermedades como el cáncer.

“Por eso, introducir la tecnología de procesamiento del lenguaje natural en la investigación de los orígenes moleculares del mal funcionamiento de las proteínas es vital si queremos ser capaces de corregir los errores gramaticales dentro de las células que causan enfermedades”.

Este enfoque podría, con el uso de modelos potentes y eficientes, conducir a descubrimientos originales, teorías de la enfermedad y metas farmacológicas más allá de lo que sería factible para los investigadores que trabajan sin estas herramientas. Saar explicó: “El aprendizaje automático puede liberarse de las limitaciones de lo que los investigadores creen que son los objetivos de la exploración científica y significará que se encontrarán nuevas conexiones que aún no hemos concebido. Es realmente muy emocionante”.

Knowles añadió: “Introducir la tecnología de aprendizaje automático en la investigación de las enfermedades neurodegenerativas y el cáncer es un avance absoluto. En última instancia, el objetivo será utilizar la inteligencia artificial para desarrollar fármacos específicos que alivien drásticamente los síntomas o impidan que se produzca la demencia”.

Ilustración: H. Heyerlein vía Unsplash