Cloud-AI de NVIDIA perfila nueva era para las videoconferencias

05/10/2020

NVIDIA ha presentado hoy la plataforma NVIDIA Maxine, que proporciona a los desarrolladores un paquete de software de videoconferencia de IA acelerado en la GPU para mejorar la transmisión de vídeo.

Entre los efectos anunciados hoy en GPU Technology Conference, figuran la corrección de la mirada, superresolución, cancelación de ruido y la reiluminación de rostros. Debido a que los datos se procesan en la nube en lugar de los dispositivos locales, los usuarios finales pueden disfrutar de las nuevas características sin necesidad de utilizar equipos especializados.

Maxine reduce drásticamente el ancho de banda necesario para las videollamadas. En lugar de transmitir toda la pantalla de píxeles, el software de IA analiza los puntos faciales clave de cada persona en una llamada y luego reconstruye inteligentemente el rostro en la pantalla del receptor. Esto hace posible reducir considerablemente la transmisión datos entre los participantes en la videoconferencia.

Utilizando esta nueva tecnología de compresión de video basada en la IA y ejecutada en las GPU de NVIDIA, los desarrolladores pueden reducir el consumo de ancho de banda de video a una décima parte de los requerimientos del estándar de compresión de video H.264. Para los usuarios finales, esto constituye una experiencia de videoconferencia más fluida, ya que pueden disfrutar de más servicios basados en la IA mientras transmiten menos datos en sus computadoras, tabletas y teléfonos.

Los nuevos avances científicos de NVIDIA incluidos en Maxine hacen que la videoconferencia se sienta más como una conversación cara a cara. La empresa ezxplica que los proveedores de servicios de videoconferencia podrán aprovechar las investigaciones de NVIDIA en las GAN, o redes generativas antagónicas, para ofrecer una variedad de nuevas funciones. Por ejemplo, la alineación de las caras permite ajustarlas automáticamente para que las personas parezcan estar frente a frente durante la llamada, mientras que la corrección de la mirada ayuda a simular el contacto visual, incluso si la cámara no está alineada con la pantalla del usuario.
Con la videoconferencia creciendo 10 veces desde principios de año, estas características ayudan a las personas a concentrarse en la conversación en lugar de mirar a la cámara.

Los desarrolladores también pueden añadir funciones que permiten a los participantes en la llamada elegir sus propios avatares animados con animación realista impulsada automáticamente por su voz y tono emocional en tiempo real. Una opción de fotograma automático permite que la imagen de video siga al orador incluso si se aleja de la pantalla.

Los desarrolladores pueden además integrar asistentes virtuales que utilizan modelos de lenguaje de IA de última generación para el reconocimiento y la comprensión del lenguaje y la generación del habla. Los asistentes virtuales pueden tomar notas, establecer puntos de acción y responder a preguntas con voces humanas. Los servicios adicionales de IA conversacional, como traducciones, subtítulos y transcripciones, ayudan a asegurar que los participantes puedan entender lo que se está discutiendo en la llamada.

Ilustración: fotograma, presentación de NVIDIA en YouTube.

📬 Newsletter gratuito

Cloud-AI de NVIDIA perfila nueva era para las videoconferencias

Últimos artículos

La adopción empresarial de IA avanza, pero continúa fragmentada, según un estudio de SAP

La adopción de agentes de IA expone debilidades en los controles de identidad, según un estudio de IDC

Google estaría desarrollando Frozen v2, un chip especializado para la arquitectura de Gemini

El avance de Kimi reabre en Washington el debate sobre los modelos chinos de IA

Fusión en la industria de identidad digital: Veridas y Fourthline unen biometría y cumplimiento regulatorio

Anthropic pone fin al acceso incluido a Claude Fable 5 y lo compensa con créditos únicos de US$100

Ciberseguridad y pagos digitales: el desafío que Chile no puede postergar

Moonshot presenta Kimi K3, un modelo de 2,8 billones de parámetros orientado al trabajo autónomo

Gemini Omni llega a Google Vids para generar y modificar videos mediante instrucciones orales