Monetizar contenido AV y optimizar los flujos de trabajo de medios
Según una encuesta de McKinsey, el 39 % de las organizaciones ya implementó alguna forma de aprendizaje automático (AA) en su negocio. Si bien esta adopción sigue siendo relativamente incipiente, la perspectiva de una eficiencia mejorada, la predicción del comportamiento del cliente y la inteligencia empresarial perspicaz hacen que esta sea una tecnología atractiva para los mercados profesionales de AV y transmisión.
Los sistemas de medios pueden aprovechar las capacidades de AA en las plataformas AMD para el procesamiento de la última tecnología de IA. El procesamiento directo en el borde, y sin necesidad de una conexión de red, tiene enormes beneficios en términos de rendimiento de baja latencia e incluso podría ser útil para superar muchas preocupaciones en torno a la privacidad y el almacenamiento de las métricas de identificación en la nube. La incorporación de estas capacidades de AA junto con los canales de procesamiento de audio y video en plataformas adaptables de AMD significa que las organizaciones pueden monetizar el análisis, mejorar la eficiencia del flujo de trabajo y optimizar la facilidad de uso. En última instancia, estas características integradas de AA permiten a las empresas acelerar la innovación y la diferenciación.
Solución de aprendizaje automático | Casos de uso de difusión | Casos de uso de Pro AV |
---|---|---|
Detección de objetos de video |
Bloquea un objeto y crea un cuadro delimitador para generar una parte recortada del video original | Control de encuadre, inclinación y zoom de la cámara para enfocar el altavoz; mejor calidad que recortar y acercar |
Detección de objetos específicos, como personas, animales o automóviles. El área alrededor de los objetos identificados está delimitada por un cuadro y las coordenadas del cuadro se introducen en un codificador para la codificación de la ROI. | ||
Automatización en deportes de transmisión en vivo | ||
Procesamiento de lenguaje natural |
Voz a texto para subtítulos | Toma de notas automatizada durante la conferencia |
Traducción de secuencia de comandos o regionalización de película | Detecta el estrés en la voz durante la interacción con el quiosco | |
Detección de sexo o edad |
Ofrece anuncios de señalización basados en el sexo o la edad | |
Análisis de calidad de video |
Detecta secuencias complejas y optimiza los parámetros de codificación | |
Análisis de opiniones |
Durante la producción en vivo, detecta el estado de ánimo del actor para determinar si actuó de acuerdo con los deseos del director. Busca actores en un video con ciertos estados de ánimo. Durante la posproducción, utiliza AA para ajustar ligeramente la expresión facial del actor según la intención creativa/artística |
Detecta el estado de ánimo de una persona mediante el quiosco digital |
Detección de gestos |
Desliza con gestos para evitar tocar la pantalla interactiva de comercio minorista o quiosco Controla el funcionamiento de la cámara en colaboración |
Características
Codificación de la región de interés
Uso de AA para ahorrar costos optimizando el ancho de banda de video codificado
Los costos de transmisión y almacenamiento de archivos de video de gran tamaño y contenido UHD pueden apilarse fácilmente. La codificación de la región de interés (ROI) puede ayudar a aliviar este problema al reducir la tasa de bits general del contenido y luego aplicar la mejor calidad de video (VQ) a las áreas a las que se dirige naturalmente el ojo, especialmente a los rostros y a las personas, mientras reduce el VQ en áreas menos importantes, como los fondos.
La ROI también se puede utilizar para conservar los detalles en las áreas más importantes de las aplicaciones de la sala de control. Por ejemplo, si ocurre un incidente y se monitorea en una pared de video grande, es importante que los detalles se puedan discernir con precisión durante la investigación de seguimiento y que se puedan utilizar para la capacitación, de modo que se puedan aprender errores y se mejoren los planes de acción. Esto significa preservar el VQ alto en áreas de superposiciones de texto (por ejemplo, relojes) utilizando coordenadas estáticas para codificación de región de interés (ROI) y rostros o personas que utilizan coordenadas dinámicas y basadas en AA.

Procesamiento de lenguaje natural y LLM
Modelos de lenguaje que se pueden aplicar a una variedad de casos de uso de AV
El reconocimiento de voz mediante el procesamiento de lenguaje natural (NLP) y los grandes modelos de lenguaje (LLM) ya es evidente en el hogar, con Alexa, Google y otros dispositivos inteligentes que pueden responder a los comandos y presentar información y medios, o controlar aspectos de la casa. Con el NLP y el LLM integrados directamente en los dispositivos de AV, se pueden aplicar las mismas capacidades en medios profesionales, lo que simplifica las interfaces de usuario, hace que la configuración de los equipos sea más rápida y menos complicada, no requiere una conexión en la nube y elimina la necesidad de servicios de suscripción relacionados para realizar la misma tarea. Con Edge AI, podrías incorporar de manera efectiva el soporte técnico en tu producto AV, con la capacidad de responder preguntas sobre la configuración, discutir fallos, comprobar la configuración de la red y realizar mantenimiento predictivo.

Señalización inteligente
Presentación de anuncios dirigidos y análisis de monetización de espectadores
La publicidad dirigida es el Santo Grial para los creadores de publicidad. Mediante el uso de varios modelos de AA para analizar a una audiencia frente a un signo digital, es posible ofrecer anuncios más relevantes y dirigidos, según métricas como la edad y el sexo. Esto hace que el proveedor de señalización sea más atractivo para los anunciantes que estarán dispuestos a pagar más por una mejor presentación de anuncios. Esto también genera datos valiosos para el anunciante, como el interés del espectador, que puede llevar a un uso mejorado del servicio y proporciona comentarios monetizables a los fabricantes que representan. El espectador también presenta anuncios relevantes y más personalizados, lo que mejora su experiencia general de compras. Los modelos alternativos de AA se pueden utilizar en quioscos interactivos, que reemplazan las pantallas táctiles con un control de gestos más limpio para avanzar al siguiente anuncio o, en particular, para realizar pedidos.

Recorte dinámico y selección de ventanas
Creación de varias salidas en ventanas desde una sola cámara de alta resolución
Imagina transmitir en vivo una discusión de panel sobre el trabajo de un artista en una universidad local. Este es un evento de bajo presupuesto con un público especializado, por lo que los costos de producción serán muy bajos. Por lo general, se utilizará una sola cámara para capturar todo el panel con zoom y encuadre ocasionales. Con el seguimiento frontal de AA, es posible tener una cámara 4K estática para capturar todo el panel y, a la vez, crear automáticamente salidas en ventanas HD de resolución más baja alrededor de cada uno de los panelistas y rastrearlas a través de la conversación. Por lo tanto, desde una sola cámara 4K, es posible tener cuatro tomas de salida diferentes para alternar entre la transmisión en vivo: el ángulo amplio y tres primeros planos. Esto crea un mayor interés visual y no requiere ningún equipo adicional de cámara para la configuración; el operador de la cámara puede convertirse en el mezclador de video y simplemente seleccionar qué cuadros transmitir.
Este enfoque se puede aplicar, con varios modelos de seguimiento de AA, en aplicaciones de transmisión profesional, como cobertura deportiva o en entornos de colaboración en los que se puede realizar un seguimiento automático de varios asistentes de videoconferencia.
MakarenaLabs MuseBox
Sistemas de aprendizaje automático para aplicaciones de difusión AV en tiempo real
MuseBox, disponible en MakarenaLabs, socio de AMD, es un sistema de aprendizaje automático en tiempo real diseñado para aplicaciones Pro AV y de difusión. Puede funcionar con transmisión en vivo, para aplicaciones interactivas o en vivo, y con archivos locales, cuando tienes una gran cantidad de archivos para procesar y también cuando no se puede acceder a estos archivos fuera de la red local por razones legales. Se basa en MPSoC Zynq UltraScale+ con pilas de AA y multimedia, o en tarjetas aceleradoras AMD Alveo para la elaboración en el lugar. MuseBox admite análisis facial y de personas, detección de objetos, análisis de audio ¡y mucho más!
MakarenaLabs tiene mucha experiencia en aprendizaje automático y ofrece una variedad de bibliotecas y productos para diversos casos de uso de AV. El sistema Mooseka se utiliza para el análisis de audio, el reconocimiento y la extracción de características y, en su analizador de transmisión Mradio, a fin de reconocer el contenido musical para el cumplimiento y la protección de derechos de autor, la promoción de radio y el análisis de marketing.
