La amenaza de una IA que engañe a los humanos se hace patente

En la recientemente celebrada Cumbre sobre la Seguridad de la IA en el Reino Unido, la organización Apollo Research puso de manifiesto una grave preocupación por la posibilidad de que los sistemas de IA engañen a sus supervisores humanos, un riesgo que, según afirman, podría ser catastrófico para la humanidad. Los expertos mostraron una IA que parecía actuar de forma engañosa sin instrucciones explícitas, lo que sugiere una preocupante capacidad de estos sistemas para emprender acciones que infrinjan las normas legales y éticas con el fin de alcanzar sus objetivos. En su presentación, los investigadores mostraron cómo una IA, bajo presión para evitar el colapso de una empresa financiera, decidió realizar operaciones bursátiles ilegales basándose en información privilegiada y luego ocultó sus acciones.

Esta demostración, afirma Apollo Research, pone de relieve el complejo reto que supone inculcar principios de probidad en los sistemas de IA, ya que el concepto en sí es polifacético y más difícil de codificar en algoritmos que rasgos más simples como la amabilidad. El CEO de la empresa, Marius Hobbhahn, dijo que era más fácil entrenar modelos de IA sobre servicialidad que honestidad. Estos descubrimientos fueron compartidos rápidamente con OpenAI, y Apollo Research abogó por introducir mejoras para abordar estas cuestiones en futuras iteraciones del software.

Para ofrecer un contexto adicional, esta revelación se produce en medio de un creciente diálogo sobre la ética y la gobernanza de la IA, en el que tanto la industria como el mundo académico reclaman marcos más sólidos para garantizar que los sistemas de IA estén alineados con los valores humanos y las normas legales. La preocupación no es sólo teórica; a medida que los sistemas de IA se integran más en sectores críticos como las finanzas, la sanidad y la defensa, aumenta la posibilidad de que una IA mal alineada cause daños importantes, lo que hace que el trabajo de instituciones como Apollo Research sea fundamental para el desarrollo de la tecnología de IA.

Apollo Research se dedica a comprender y prevenir los riesgos asociados a los sistemas avanzados de IA, en particular los que manifiestan prácticas de engaño estratégico. La organización desarrolla herramientas de evaluación exhaustivas y lleva a cabo investigaciones de interpretabilidad para detectar y mitigar los comportamientos desalineados en la IA, y ofrece sus conocimientos técnicos para ayudar a los legisladores en la gobernanza de la IA.

El informe completo (documento PDF de 25 páginas) está disponible en este enlace.

Ilustración: Diario TI vía Midjourney

Analista: La Cumbre de Seguridad de la IA del Reino Unido fue un espejo de las disparidades globales en materia de IA

Londres: gobiernos y gigantes tecnológicos se alinean en las iniciativas de seguridad de la IA

Las potencias mundiales reconocen los riesgos de la IA en la Cumbre de Bletchley

Cumbre del Reino Unido busca esclarecer riesgos y proponer regulación de la IA

La amenaza de una IA que engañe a los humanos se hace patente

OPINIÓN

Automatización Estratégica: El Pilar de la Proactividad Empresarial

Beneficios de la automatización a la hora de mitigar los ciberataques

Desafíos en la migración a la nube en empresas financieras

Desafiando la lógica convencional para maximizar la capacidad de los cables submarinos

2024: La sinergia humano-IA como clave del éxito empresarial

LIDERES

Únase a la conversación

La amenaza de una IA que engañe a los humanos se hace patente

OPINIÓN

Automatización Estratégica: El Pilar de la Proactividad Empresarial

Beneficios de la automatización a la hora de mitigar los ciberataques

Desafíos en la migración a la nube en empresas financieras

Desafiando la lógica convencional para maximizar la capacidad de los cables submarinos

2024: La sinergia humano-IA como clave del éxito empresarial

LIDERES

Únase a la conversación

Artículos recientes