AV 콘텐츠 수익 창출 및 미디어 워크플로 최적화

McKinsey 설문 조사에 따르면 조직의 39%는 이미 비즈니스에서 머신러닝(ML)의 일부 형태를 구현했습니다. ML 도입은 아직 비교적 초기 단계이지만 효율성 향상, 고객 행동 예측, 통찰력 있는 비즈니스 인텔리전스를 기대할 수 있다는 점에서 전문 AV 및 방송 시장에 매력적인 기술입니다.

미디어 시스템은 AI 에지 프로세싱을 위해 AMD 플랫폼의 ML 기능을 활용할 수 있습니다. 네트워크 연결 없이 에지에서 직접 프로세싱하면 저지연율 성능 측면에서 엄청난 이점을 얻을 수 있으며, 클라우드의 개인정보 보호 및 식별 지표 저장과 관련된 많은 우려를 극복하는 데에도 유용할 수 있습니다. 조직은 이러한 ML 기능을 오디오 및 동영상 프로세싱 파이프라인과 함께 AMD의 적응형 플랫폼에 통합함으로써 분석을 통해 수익을 창출하고 워크플로 효율성을 개선하며 유용성을 향상할 수 있습니다. 궁극적으로 이러한 통합 ML 기능을 통해 기업은 혁신과 차별화를 가속할 수 있습니다.

머신러닝 솔루션 방송 사용 사례 전문 AV 사용 사례
동영상 객체 감지
객체에 초점을 고정하고 경계 상자를 만들어 원본 동영상의 잘린 부분을 출력합니다. 화자에 초점을 맞춘 카메라 팬, 틸트 및 줌 제어, 자르기 및 줌보다 우수한 화질
사람, 동물 또는 자동차와 같은 특정 객체 감지 식별된 객체 주위의 영역은 상자로 경계가 설정되고 상자 좌표는 ROI 인코딩을 위한 인코더로서 공급됩니다.
스포츠 생방송 자동화  
자연어 처리
자막 또는 자막용 음성 변환 회의 중 자동 메모 작성
스크립트 번역 또는 영화 현지화 키오스크 상호 작용 중 음성 스트레스 감지
성별 또는 연령 감지
  성별 또는 연령에 따라 사이니지 광고 제공
동영상 품질 분석
복잡한 시퀀스 감지 및 인코딩 파라미터 최적화
감정 분석
라이브 프로덕션 중에 배우의 기분을 감지하여 감독의 주문에 따라 연기했는지 판단합니다.
특정 분위기의 동영상 클립에서 배우를 찾습니다.
후반작업 중에 ML을 사용하여 창의적/예술적 의도에 따라 배우의 표정을 약간 수정합니다.
디지털 키오스크를 사용하여 사람의 기분 감지
제스처 감지
  대화형 리테일 또는 키오스크 화면을 터치하지 않도록 제스처로 스와이프
카메라 작동 공동 제어

기능

관심 영역 인코딩

ML을 사용해 인코딩된 동영상 대역폭을 최적화하여 비용 절감

대용량 동영상 파일과 UHD 콘텐츠의 스트리밍 및 스토리지 비용은 쉽게 누적될 수 있습니다. 관심 영역(ROI) 인코딩을 사용하면 콘텐츠의 전체 비트 전송률을 줄인 다음 시선이 자연스럽게 가는 영역, 특히 얼굴과 사람에 최상의 동영상 품질(VQ)을 적용하고 배경과 같이 덜 중요한 영역에는 VQ를 줄여 이 문제를 완화할 수 있습니다.

ROI는 제어실 애플리케이션에서 가장 중요한 영역의 세부 사항을 보존하는 데에도 사용할 수 있습니다. 예를 들어 문제가 발생하여 대형 동영상 월에서 모니터링하는 경우, 후속 조사 중에 세부 사항을 정확하게 파악하고 교육에 활용하여 실수를 학습하고 조치 계획을 개선할 수 있도록 하는 것이 중요합니다. 즉, ROI 인코딩에 정적 좌표를 사용하고 동적 및 ML 기반 좌표를 사용하는 얼굴 또는 사람을 사용하여 텍스트 오버레이 영역(예: 시계)에서 높은 VQ를 유지해야 합니다.

avml-encoding.png

자연어 처리 및 LLM

다양한 AV 사용 사례에 적용할 수 있는 언어 모델

자연어 처리(NLP)와 거대 언어 모델(LLM)을 사용한 음성 인식은 이미 가정에서 Alexa, Google, 기타 스마트 기기를 통해 명령에 응답하고 정보와 미디어를 표시하거나 집안 곳곳을 제어할 수 있습니다. AV 기기에 직접 내장된 NLP와 LLM을 사용하면 전문 미디어에 동일한 기능을 적용할 수 있으므로 사용자 인터페이스가 더 간단해지고, 장비를 더 빠르고 덜 복잡하게 설정할 수 있으며, 클라우드 연결이 필요하지 않고, 동일한 작업을 수행하기 위해 관련 가입 서비스를 이용할 필요가 없습니다. Edge AI를 사용하면 구성에 대한 질문에 답변하고, 문제에 대해 논의하고, 네트워크 설정을 확인하고, 예측 유지 관리를 수행할 수 있는 기능을 통해 AV 제품에 기술 지원을 효과적으로 구축할 수 있습니다.

avml-voice.png

지능형 사이니지

표적 광고 제시 및 시청자 분석 수익 창출

표적 광고는 마케터의 궁극적인 목표입니다. 다양한 ML 모델을 사용하여 디지털 사이니지에 노출된 시청자를 분석하면 연령 및 성별과 같은 지표에 따라 관련성이 높은 표적 광고를 제공할 수 있습니다. 이를 통해 사이니지 제공업체는 더 나은 광고 노출을 위해 더 많은 비용을 지불할 의향이 있는 광고주에게 더욱 매력적으로 다가갈 수 있습니다. 또한 시청자 관심사 등 광고주에게 가치 있는 데이터를 생성하여 서비스 사용을 개선하고 광고주가 대표하는 제조업체에 수익성 높은 피드백을 제공합니다. 시청자에게도 관련성이 높은 맞춤형 광고를 제공하여 전반적인 쇼핑 경험을 개선합니다. 대체 ML 모델은 대화형 키오스크에서 사용할 수 있으며, 터치스크린을 보다 위생적인 제스처 컨트롤로 대체하여 다음 광고로 이동하거나 주문할 때 사용할 수 있습니다.

avml-intelligent-signage.png

동적 자르기 및 창 조절

단일 고해상도 카메라에서 여러 개의 창 출력 생성

지역 대학에서 예술가의 작품에 대한 패널 토론을 라이브 스트리밍한다고 상상해 보세요. 이러한 행사는 틈새시장이 존재하는 저예산 행사이므로 제작비가 매우 낮습니다. 일반적으로 단일 카메라가 사용되며 줌과 패닝을 통해 수시로 전체 패널을 캡처하게 됩니다. ML 얼굴 추적을 사용하면 정적 4K 카메라가 전체 패널을 캡처하되 각 패널 목록 주위에 저해상도 HD 창 출력을 자동 생성하여 대화를 통해 추적할 수 있습니다. 따라서 하나의 4K 카메라로 라이브 스트리밍하는 도중에 광각과 3개의 클로즈업 샷 등 총 네 가지 출력 샷 간에 전환할 수 있습니다. 이렇게 하면 시각적 흥미를 더할 수 있고 별도의 카메라 장비 설치가 필요하지 않으며, 카메라 조작자는 마치 동영상 믹서처럼 스트리밍할 프레임을 선택하기만 하면 됩니다.

이 접근 방식은 다양한 ML 추적 모델과 더불어 스포츠 중계와 같은 전문 방송 애플리케이션이나 여러 화상 회의 참석자를 자동으로 추적할 수 있는 협업 환경에 적용할 수 있습니다.

MakarenaLabs MuseBox

실시간 AV 방송 애플리케이션을 위한 머신 러닝 시스템

AMD 파트너 MakarenaLabs에서 제공하는 MuseBox는 전문 AV 및 방송 애플리케이션을 위해 설계된 실시간 머신 러닝 시스템입니다. 대화형 또는 라이브 애플리케이션용 라이브 스트림과 연동할 수 있으며, 처리할 파일이 많은 경우 그리고 법적인 이유로 로컬 네트워크 외부에서 해당 파일에 액세스할 수 없는 경우에는 로컬 파일과 연동할 수 있습니다. 멀티미디어 및 ML 스택을 사용하는 Zynq UltraScale+ MPSoC 또는 온프레미스 정교화 작업을 위한 AMD Alveo 가속기 카드를 기반으로 합니다. MuseBox는 얼굴 및 사람 분석, 객체 감지, 오디오 분석 등을 지원합니다!

MakarenaLabs는 머신러닝에 대한 경험이 풍부하며 다양한 AV 사용 사례를 위한 여러 가지 라이브러리 및 제품을 제공합니다. Mooseka 시스템은 오디오 분석, 인식, 기능 추출에 사용되며 MRadio 스트림 분석기에서 저작권 집행과 보호, 라디오 홍보 및 마케팅 분석을 위해 음악 콘텐츠를 인식하는 데 사용됩니다.

avml-makarena-labs.png