Método pionero de Anthropic busca desglosar redes neuronales complejas

A medida que la frontera de la IA continúa expandiéndose, el próximo reto crítico no reside en el raciocinio científico, sino en soluciones de ingeniería que puedan ampliar la interpretabilidad a modelos más complejos.

Anthropic escribe en su blog que los avances en inteligencia artificial (IA) se concentran cada vez más en la interpretabilidad de las redes neuronales. Aunque estas redes destacan en una gran variedad de tareas gracias a su intrincada arquitectura, la comprensión de los mecanismos subyacentes sigue siendo un reto. Este dilema es similar al que afrontan los neurocientíficos que intentan descifrar el cerebro humano. Afortunadamente, a quienes estudian las redes neuronales artificiales les resulta mucho más fácil realizar experimentos en profundidad.

En un artículo seminal titulado Towards Monosemanticity: Decomposing Language Models With Dictionary Learning, el equipo de Anthropic propone una metodología que pasa del estudio de las neuronas individuales al análisis de características: combinaciones lineales de activaciones neuronales. Este enfoque aporta claridad sobre las propiedades de alta dimensionalidad de las redes neuronales que, de otro modo, resultan elusivas cuando se observan a través de la lente de las neuronas individuales. Los expertos consideran este cambio de las neuronas hacia las características como un enfoque innovador para mejorar la interpretabilidad, la seguridad y la fiabilidad de los modelos.

El equipo aplicó su técnica a los modelos de lenguaje de los transformadores y mapeó con éxito más de 4.000 características que encapsulan por separado aspectos como las secuencias de ADN, el lenguaje jurídico, las peticiones HTTP y muchos más. Las evaluaciones realizadas por expertos humanos también han demostrado que las características son significativamente más interpretables que las neuronas individuales, lo que ofrece un enfoque más específico para modelar el comportamiento. Además, estos rasgos parecen ser universales en diferentes modelos, ofreciendo perspectivas que podrían generalizarse a redes neuronales más grandes y complejas.

El esfuerzo forma parte de la inversión a largo plazo de Anthropic en Interpretabilidad Mecanicista, un área de investigación fundamental para la seguridad de la IA. El esfuerzo marca un paso crítico hacia una comprensión mecanicista de los modelos de lenguaje, allanando potencialmente el camino para una mejor supervisión y control internos. Los autores son optimistas sobre la posibilidad de ampliar este enfoque a modelos mucho más complicados en futuros estudios.

A medida que las fronteras de la IA siguen avanzando, el próximo reto crítico no reside en la comprensión científica, sino en soluciones de ingeniería que puedan ampliar este enfoque de interpretabilidad a modelos más complejos.

Ilustración: Diario TI vía Midjourney


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022