Diario TI
IA

Mozilla Data Collective: una alternativa ética para compartir datos de IA

Mozilla Data Collective, o MDC, busca ofrecer una alternativa al modelo basado en recopilar grandes volúmenes de contenido desde internet sin una relación directa con sus creadores, titulares o comunidades de origen. La plataforma prioriza datos multilingües, multiculturales y multimodales. Los proveedores conservan la propiedad, establecen condiciones de acceso y pueden ofrecerlos de manera abierta, comunitaria o remunerada.

Con ello, Mozilla impulsa una plataforma para compartir y distribuir datos destinados al desarrollo de inteligencia artificial bajo condiciones definidas por quienes poseen sus derechos. La plataforma permite que organizaciones, archivos, bibliotecas, investigadores, comunidades e individuos publiquen conjuntos de datos sin transferir su propiedad. Cada proveedor puede establecer una licencia, condiciones de acceso y restricciones adicionales para determinar cómo podrá utilizarse el material.

Mozilla presenta el proyecto como una infraestructura para la “agencia sobre los datos” y el intercambio justo de valor. Su objetivo declarado es que los titulares puedan decidir si distribuyen sus datasets como recursos abiertos, bajo gobernanza comunitaria o mediante compensación económica.

La iniciativa prioriza datos multilingües, multiculturales y multimodales. Esto incluye grabaciones de voz, imágenes, videos y textos que puedan emplearse en investigación, evaluación o entrenamiento de modelos de aprendizaje automático.

La plataforma presta especial atención a contenidos que no se encuentran fácilmente en la web. Esta orientación busca mejorar la representación de idiomas, dialectos y contextos culturales que suelen disponer de pocos recursos para desarrollar sistemas de reconocimiento de voz, traducción y procesamiento del lenguaje.

El catálogo consultado por Diario TI contenía 799 datasets. Entre ellos figuran corpus de audio y texto en lenguas africanas, asiáticas y latinoamericanas, recursos para traducción automática y reconocimiento de voz, un corpus de lengua de señas brasileña aplicado a salud y datos procedentes de la Plataforma Nacional de Transparencia de México.

Los materiales incluyen información sobre proveedor, licencia, idioma o localidad, tarea de aprendizaje automático, formato y tamaño. La presencia de estos metadatos busca facilitar que los desarrolladores conozcan la procedencia y las condiciones antes de incorporar un dataset a un proyecto.

La licencia no es necesariamente la única restricción aplicable. Los proveedores pueden añadir condiciones o usos prohibidos en la ficha del dataset. Cuando existe una diferencia entre la licencia general y esas condiciones adicionales, Mozilla establece que debe respetarse la regla más restrictiva.

El acuerdo para usar los datos se establece directamente entre el proveedor y quien los descarga. MDC actúa como plataforma de alojamiento y distribución, pero no garantiza que cada conjunto sea preciso, completo, legal o apropiado para una aplicación determinada.

Esto significa que la responsabilidad de evaluar la calidad, los derechos y la adecuación de los datos permanece en el usuario. Por su parte, quien publica debe confirmar que posee las autorizaciones necesarias y que el contenido no incluye categorías prohibidas por las condiciones de la plataforma.

Mozilla Data Collective también dispone de una API REST en fase beta. Los desarrolladores pueden utilizarla para integrar datasets comunitarios en sus aplicaciones, después de crear credenciales y aceptar las condiciones correspondientes mediante la interfaz web.

El acceso automatizado se realiza mediante la API oficial o una biblioteca para Python. La plataforma no permite recurrir a herramientas externas de scraping para copiar o indexar los conjuntos de datos.

MDC incorpora además mecanismos destinados a mantener el control después de la publicación. Los proveedores pueden retirar un dataset y, en determinados casos, elegir si lo alojan de manera exclusiva en la plataforma.

El tratamiento de Common Voice muestra cómo puede aplicarse este modelo de gobernanza. Mozilla limita el acceso a versiones antiguas de esos datasets para respetar a quienes retiraron su consentimiento. Las ediciones anteriores requieren una solicitud que permite conocer el propósito y controlar su utilización.

En el aspecto económico, el sitio afirma que los proveedores conservan actualmente la totalidad de los ingresos generados por sus datos. La documentación también indica que Mozilla planea cobrar en el futuro una comisión cuando un dataset se ofrezca mediante pago, sin precisar todavía su porcentaje o condiciones.

El alojamiento es gratuito para quienes distribuyen datos sin costo. Esto permite que el mismo sistema contenga recursos abiertos, conjuntos con restricciones comunitarias y materiales que eventualmente puedan comercializarse.

Mozilla Data Collective opera como una compañía británica con su misión protegida, incubada por Mozilla Foundation y respaldada por la organización sin fines de lucro Mozilla.org. Su planteamiento institucional es que la infraestructura de datos para IA debe comenzar con las personas y no con la extracción.

La propuesta aborda uno de los problemas centrales del desarrollo contemporáneo de IA: cómo obtener datos suficientemente diversos sin separar su valor económico y cultural de las personas que los produjeron. Su alcance dependerá de la cantidad y calidad de los recursos incorporados, de la adopción por parte de desarrolladores y de la capacidad de la plataforma para hacer cumplir condiciones diferentes entre cientos de datasets.

📬 Newsletter gratuito

Lo más relevante de tecnología y negocios digitales en español — cada día, en cinco minutos.

Últimos artículos