Facebook AI está introduciendo M2M-100, el primer modelo de traducción automática multilingüe (MMT) que puede traducir entre cualquier par de 100 idiomas sin depender de los datos en inglés. Es de fuente abierta aquí.
Cuando se traduce, por ejemplo, del chino al francés, la mayoría de los modelos multilingües centrados en el inglés se entrenan en el chino al inglés y en el inglés al francés, porque los datos de entrenamiento en inglés son los más disponibles. Nuestro modelo se entrena directamente en los datos del chino al francés para preservar mejor el significado. Supera a los sistemas centrados en el inglés en 10 puntos en la ampliamente utilizada métrica BLEU para evaluar las traducciones automáticas.
M2M-100 está entrenado en un total de 2.200 direcciones de idiomas – o 10 veces más que los mejores modelos multilingües centrados en el inglés. El despliegue de M2M-100 mejorará la calidad de las traducciones de miles de millones de personas, especialmente las que hablan idiomas de bajos recursos.
Este hito es la culminación de años de trabajo fundacional de la IA de Facebook en la traducción automática. Hoy, estamos compartiendo detalles sobre cómo construimos un conjunto de datos de entrenamiento MMT más diverso y un modelo para 100 idiomas. También estamos publicando el modelo, el entrenamiento y la configuración de la evaluación para ayudar a otros investigadores a reproducir y avanzar aún más en los modelos multilingües.
La independencia del inglés para traducir entre otros idiomas le ha permitido que su modelo supere en diez puntos en la métrica BLEU a los modelos multilingüe avanzados dependientes del inglés.
Es un modelo completamente escalable y universal, a diferencia de la mayoría, que cuentan con un modelo de inteligencia artificial para cada idioma y tarea.
Y para crear M2M-100 se ha necesitado una basta cantidad de datos para posibilitar su entrenamiento, teniendo en cuenta que da soporte a 100 idiomas diferentes.
Desde Facebook AI explican que han tenido que recurrir a novedosas estrategias de minería de datos, creando lo que llaman primer conjunto de datos verdaderamente de muchos a muchos.
Ello le ha permitido obtener grandes volúmenes de pares de oraciones de calidad para direcciones de traducción arbitrarias que no involucran al inglés, hasta llegar hasta los 7.500 millones de pares de oraciones en 100 idiomas hasta la fecha.
Así que la conclusión de Facebook AI sobre su nuevo hito es que:
El nuevo modelo multilingüe de muchos a muchos de Facebook AI es la culminación de varios años de trabajo pionero en MT en modelos innovadores, recursos de minería de datos y técnicas de optimización.
Los interesados en conocer en profundidad al nuevo modelo de traducción automática multiligüe creado por Facebook tendrá todos los detalles en el anuncio oficial.