El MIT suprime dataset de entrenamiento de IA con material ofensivo

Los sistemas de inteligencia artificial (IA) y de aprendizaje automático (ML) utilizan los datasets como base para el entrenamiento. El MIT creó el set Tiny Images, que contenía unos 80 millones de imágenes.

En una carta abierta, Bill Freeman y Antonio Torralba, ambos académicos del MIT, así como el docente de la Universidad de Nueva York, Rob Fergus, expusieron los problemas que descubrieron y los pasos que dieron para resolverlos.

“Se nos ha hecho saber que el dataset de Tiny Images contiene algunos términos despectivos y ofensivos que se utilizan como categorías e imágenes”, escriben los profesores. “La situación se produjo a raíz del procedimiento automatizado de recolección de datos que se basó en sustantivos de WordNet. Estamos muy preocupados por esto y pedimos disculpas a quienes puedan haber sido afectados.

“El conjunto de datos es demasiado grande (80 millones de imágenes) y las imágenes son tan pequeñas (32 x 32 píxeles) que puede ser difícil para las personas reconocer visualmente su contenido. Por lo tanto, la inspección manual, aunque sea factible, no garantizará que las imágenes ofensivas puedan ser eliminadas completamente.

“Por lo tanto, hemos decidido retirar formalmente el dataset. Se ha retirado de la red y no se volverá a poner en línea. Pedimos a la comunidad que se abstenga de utilizarlo en el futuro y también eliminar cualquier copia que pueda haber sido descargada.”

El anuncio pone de relieve un problema constante con los datasets de capacitación en materia de IA y ML. Algunos expertos han advertido que es demasiado fácil que estos sistemas desarrollen inadvertidamente sesgos basados en los propios datos con los que son programados.

Ilustración por Markus Spiske vía Unsplash