NVIDIA ha presentado hoy la plataforma NVIDIA Maxine, que proporciona a los desarrolladores un paquete de software de videoconferencia de IA acelerado en la GPU para mejorar la transmisión de vídeo.
Entre los efectos anunciados hoy en GPU Technology Conference, figuran la corrección de la mirada, superresolución, cancelación de ruido y la reiluminación de rostros. Debido a que los datos se procesan en la nube en lugar de los dispositivos locales, los usuarios finales pueden disfrutar de las nuevas características sin necesidad de utilizar equipos especializados.
Maxine reduce drásticamente el ancho de banda necesario para las videollamadas. En lugar de transmitir toda la pantalla de píxeles, el software de IA analiza los puntos faciales clave de cada persona en una llamada y luego reconstruye inteligentemente el rostro en la pantalla del receptor. Esto hace posible reducir considerablemente la transmisión datos entre los participantes en la videoconferencia.
Utilizando esta nueva tecnología de compresión de video basada en la IA y ejecutada en las GPU de NVIDIA, los desarrolladores pueden reducir el consumo de ancho de banda de video a una décima parte de los requerimientos del estándar de compresión de video H.264. Para los usuarios finales, esto constituye una experiencia de videoconferencia más fluida, ya que pueden disfrutar de más servicios basados en la IA mientras transmiten menos datos en sus computadoras, tabletas y teléfonos.
Los nuevos avances científicos de NVIDIA incluidos en Maxine hacen que la videoconferencia se sienta más como una conversación cara a cara. La empresa ezxplica que los proveedores de servicios de videoconferencia podrán aprovechar las investigaciones de NVIDIA en las GAN, o redes generativas antagónicas, para ofrecer una variedad de nuevas funciones. Por ejemplo, la alineación de las caras permite ajustarlas automáticamente para que las personas parezcan estar frente a frente durante la llamada, mientras que la corrección de la mirada ayuda a simular el contacto visual, incluso si la cámara no está alineada con la pantalla del usuario.
Con la videoconferencia creciendo 10 veces desde principios de año, estas características ayudan a las personas a concentrarse en la conversación en lugar de mirar a la cámara.
Los desarrolladores también pueden añadir funciones que permiten a los participantes en la llamada elegir sus propios avatares animados con animación realista impulsada automáticamente por su voz y tono emocional en tiempo real. Una opción de fotograma automático permite que la imagen de video siga al orador incluso si se aleja de la pantalla.
Los desarrolladores pueden además integrar asistentes virtuales que utilizan modelos de lenguaje de IA de última generación para el reconocimiento y la comprensión del lenguaje y la generación del habla. Los asistentes virtuales pueden tomar notas, establecer puntos de acción y responder a preguntas con voces humanas. Los servicios adicionales de IA conversacional, como traducciones, subtítulos y transcripciones, ayudan a asegurar que los participantes puedan entender lo que se está discutiendo en la llamada.
Ilustración: fotograma, presentación de NVIDIA en YouTube.