Monetize o conteúdo AV e otimize fluxos de trabalho de mídia

De acordo com uma pesquisa da McKinsey, 39% das organizações já implementaram alguma forma de aprendizado de máquina (ML) em seus negócios. Embora essa adoção ainda seja relativamente nova, a perspectiva de melhorias na eficiência, previsão do comportamento do cliente e inteligência empresarial perspicaz tornam essa uma tecnologia atraente para os mercados de Pro AV e transmissão.

Os sistemas de mídia podem aproveitar os recursos de ML nas plataformas AMD para processamento de AI Edge. O processamento diretamente na borda e sem precisar de uma conexão de rede, tem enormes benefícios em termos de desempenho de baixa latência e pode até ser útil para superar muitas preocupações em relação à privacidade e armazenamento de métricas de identificação na nuvem. Incorporar esses recursos de ML em conjunto com pipelines de processamento de áudio e vídeo em plataformas adaptáveis da AMD sugere que as organizações poderão monetizar a análise, melhorar a eficiência do fluxo de trabalho e aumentar a usabilidade. Em última análise, esses recursos de ML integrados permitem às empresas acelerar a inovação e a diferenciação.

Solução de aprendizado de máquina Casos de uso de transmissão Casos de uso de Pro AV
Detecção de objetos de vídeo
Bloquear um objeto e criar uma caixa delimitadora para produzir uma parte recortada do vídeo original Controle de câmera com panorâmica, inclinação e zoom para focar no orador; melhor qualidade do que corte e zoom
Detecção de objetos específicos, como pessoas, animais ou carros. A área em torno dos objetos identificados é delimitada por uma caixa e as coordenadas da caixa são alimentadas num codificador para codificação ROI.
Automação em esportes com transmissão ao vivo  
Processamento de linguagem natural
Fala para texto para legendas Tomada automática de notas durante conferência
Tradução de script ou regionalização de filmes Detecção de estresse na voz durante a interação com quiosque
Detecção de gênero ou idade
  Veiculação de anúncios de sinalização com base no sexo ou idade
Análise da qualidade de vídeo
Detecção de sequências complexas e otimização de parâmetros de codificação
Análise de sentimento
Durante a produção ao vivo, detecção do humor do ator para determinar se ele agiu de acordo com os desejos do diretor.
Procura atores em um clipe de vídeo com determinado humor.
Durante a pós-produção, a ML pode ser usada para ajustar ligeiramente a expressão facial do ator com base na intenção criativa/artística
Detecção do humor de uma pessoa que usa o quiosque digital
Detecção de gestos
  Deslizar com gestos para evitar tocar na tela interativa do varejo ou do quiosque
Controle de operação da câmera em colaboração

Recursos

Codificação da região de interesse

Usar ML para economizar custos otimizando a largura de banda de vídeo codificado

Os custos de streaming e armazenamento de grandes arquivos de vídeo e conteúdo UHD podem facilmente aumentar. A codificação de região de interesse (ROI) pode ajudar a aliviar esse problema, reduzindo a taxa de bits geral do conteúdo e aplicando a melhor qualidade de vídeo (VQ) em áreas para as quais o olho é naturalmente atraído, em particular, rostos e pessoas, enquanto reduz a VQ em áreas menos importantes, como fundos.

A ROI também pode ser usada para preservar detalhes nas áreas mais importantes em aplicações de salas de controle. Por exemplo, se um incidente ocorrer e for monitorado em um grande video wall, é importante que os detalhes possam ser discernidos com precisão durante a investigação de acompanhamento e úteis para treinamento, para que os erros possam ser aprendidos e os planos de ação melhorados. Isto significa preservar a alta VQ em áreas de sobreposições de texto (por exemplo, relógios) utilizando coordenadas estáticas para codificação ROI e rostos ou pessoas que utilizam coordenadas dinâmicas e baseadas em ML.

avml-encoding.png

Processamento de linguagem natural e LLMs

Modelos de linguagem que podem ser aplicados a uma variedade de casos de uso de AV

O reconhecimento de fala usando o NLP (Natural Language Processing, Processamento de linguagem natural) e os LLMs (Large Language Models, Grandes Modelos de Linguagem) já é evidente nas residências, com Alexa, Google e outros dispositivos inteligentes que podem responder a comandos e apresentar informações e mídia, ou controlar aspectos da casa. Com NLP e LLMs incorporados diretamente aos dispositivos AV, os mesmos recursos podem ser aplicados em mídia profissional, simplificando as interfaces de usuário, tornando a configuração do equipamento mais rápida e menos complicada, não exigindo conexão com a nuvem e eliminando a necessidade de serviços de assinatura relacionados para executar a mesma tarefa. Com a IA de borda, você pode efetivamente incorporar suporte técnico ao seu produto AV, com a capacidade de responder a perguntas sobre configuração, discutir falhas, verificar a configuração da rede e realizar manutenção preditiva.

avml-voice.png

Sinalização inteligente

Apresentação de anúncios segmentados e monetização da análise de espectadores

A publicidade direcionada é o santo graal dos profissionais de marketing. Usando vários modelos de ML para analisar um público diante de um sinal digital, é possível veicular anúncios mais relevantes e direcionados, com base em métricas como idade e gênero. Isso torna o provedor de sinalização mais atraente para os anunciantes que estarão dispostos a pagar mais para uma melhor apresentação de anúncios. Isso também gera dados valiosos para o anunciante, como o interesse do espectador, o que pode levar a um melhor uso do serviço e fornecer feedback monetizável aos fabricantes que representam. O espetador também recebe anúncios relevantes e mais personalizados, melhorando sua experiência geral de compras. Os modelos de ML alternativos podem ser usados em quiosques interativos, substituindo telas sensíveis ao toque por um controle de gestos mais higiênico para passar para o próximo anúncio ou especialmente para fazer pedidos.

avml-intelligent-signage.png

Recorte e janelamento dinâmicos

Criar várias saídas com janelas a partir de uma única câmera de alta resolução

Imagine transmitir ao vivo um painel de discussão sobre o trabalho de um artista em uma faculdade local. Esse é um evento de baixo orçamento com um público de nicho, então os custos de produção serão muito baixos. Normalmente, uma única câmera será utilizada, captando todo o painel com zoom e panorâmica ocasionais. Usando o reconhecimento fácil por ML, é possível ter uma câmera 4K estática capturando todo o painel, mas criar automaticamente saídas HD com janelas de resolução mais baixas em torno de cada um dos participantes do painel e rastreá-los durante a conversa. Assim, a partir de uma única câmera 4K, é possível ter quatro imagens de saída diferentes para alternar entre durante a transmissão ao vivo — o grande ângulo e três grandes planos. Isso cria mais interesse visual e não requer nenhum equipamento de câmera extra para configurar — o operador da câmera pode se tornar o vídeo mixer e simplesmente selecionar quais quadros transmitir.

Essa abordagem pode ser aplicada com vários modelos de rastreamento de ML, em aplicativos de transmissão profissionais, como cobertura esportiva ou em ambientes de colaboração, em que vários participantes de videoconferência podem ser rastreados automaticamente.

MakarenaLabs MuseBox

Sistemas de aprendizado de máquina para aplicações de transmissão AV em tempo real

Disponível no MakarenaLabs, parceiro da AMD, o MuseBox é um sistema de aprendizado de máquina em tempo real projetado para aplicações de AV profissionais e de transmissão. Ele pode trabalhar com transmissão ao vivo, para aplicativos interativos ou ao vivo, e pode trabalhar com arquivos locais, quando você tem uma grande quantidade de arquivos para processar e também quando esses arquivos não são acessíveis fora da rede local por razões legais. Ele se baseia em um MPSoC Zynq UltraScale+ usando pilhas multimídia e de ML ou em placas aceleradoras AMD Alveo para elaboração no local. O MuseBox suporta análise facial e de pessoas, detecção de objetos, análise de áudio e muito mais!

O MakarenaLabs tem uma grande experiência em aprendizado de máquina e oferece uma gama de bibliotecas e produtos para vários casos de uso de AV. O sistema Mooseka é usado para análise de áudio, reconhecimento e extração de recursos e é usado em seu analisador de fluxo MRadio para reconhecer conteúdo de música para aplicação e proteção de direitos autorais, promoção de rádio e análise de marketing.

avml-makarena-labs.png