Monetarisierung von AV-Inhalten und Optimierung von Medien-Workflows

Laut einer McKinsey-Umfrage haben bereits 39 % der Unternehmen irgendeine Form des maschinellen Lernens (ML) in ihrem Unternehmen eingeführt. Auch wenn die Akzeptanz noch relativ gering ist, macht die Aussicht auf verbesserte Effizienz, Vorhersage des Kundenverhaltens und aufschlussreiche Geschäftsinformationen diese Technologie für den professionellen AV- und Broadcast-Markt attraktiv.

Mediensysteme können die ML-Fähigkeiten von AMD-Plattformen für die Verarbeitung am KI-Rand nutzen. Die Verarbeitung direkt am Rande des Systems und ohne Netzwerkverbindung bietet enorme Vorteile in Bezug auf die Leistung mit geringer Latenz und könnte sogar nützlich sein, um viele Bedenken in Bezug auf den Datenschutz und die Speicherung von Identifikationsmetriken in der Cloud zu überwinden. Die Integration dieser ML-Funktionen zusammen mit Audio- und Videoverarbeitungs-Pipelines in anpassungsfähige Plattformen von AMD bedeutet, dass Unternehmen Analysen monetarisieren, die Effizienz ihrer Arbeitsabläufe verbessern und die Nutzerfreundlichkeit erhöhen können. Letztendlich können Unternehmen dank dieser integrierten ML-Funktionen Innovation und Differenzierung beschleunigen.

Lösung für maschinelles Lernen Broadcast – Anwendungsfälle Pro AV – Anwendungsfälle
Videoobjekterkennung
Fixieren auf ein Objekt und Erstellen eines Begrenzungsrahmens, um einen beschnittenen Teil des Originalvideos auszugeben Schwenken, Neigen und Zoomen der Kamera zur Fokussierung auf den Sprecher; bessere Qualität als Zuschneiden und Zoomen
Erkennen Sie bestimmte Objekte, wie Menschen, Tiere oder Autos. Der Bereich um die erkannten Objekte wird in eine Box eingeschlossen, und die Koordinaten der Box werden in einen Encoder für die ROI-Codierung eingegeben.
Automatisierung bei Live-Sportübertragungen  
Natural Language Processing
Speech-to-Text für Bildunterschriften oder Untertitel Automatisierte Notizen während einer Konferenz
Drehbuchübersetzung oder Lokalisierung von Filmen Erkennung von Stress in der Stimme während einer Kiosk-Interaktion
Erkennung von Geschlecht oder Alter
  Schalten von Anzeigen auf der Grundlage von Geschlecht oder Alter
Analyse der Videoqualität
Erkennen komplexer Sequenzen und Optimieren der Kodierungsparameter
Stimmungsanalyse
Ermitteln Sie während einer Live-Produktion die Stimmung der Schauspieler, um festzustellen, ob sie nach den Wünschen des Regisseurs gehandelt haben.
Suchen Sie in einem Videoclip nach Schauspielern mit bestimmten Stimmungen.
Verwenden von ML bei der Postproduktion, um den Gesichtsausdruck des Schauspielers je nach kreativer/künstlerischer Absicht leicht zu verändern
Erkennen der Stimmung einer Person mithilfe eines digitalen Kiosks
Erkennen von Gesten
  Wischen mit Gesten, um eine Berührung des interaktiven Einzelhandels- oder Kioskbildschirms zu vermeiden
Steuern des Kamerabetriebs bei der Zusammenarbeit

Funktionen

Kodierung der Region of Interest

Mit ML Kosten sparen durch Optimierung der kodierten Videobandbreite

Die Streaming- und Speicherkosten für große Videodateien und UHD-Inhalte können sich schnell summieren. Die Region-of-Interest (ROI)-Kodierung kann hier Abhilfe schaffen, indem sie die Gesamtbitrate der Inhalte reduziert und dann die beste Videoqualität (VQ) auf Bereiche anwendet, die das Auge natürlich anziehen, insbesondere Gesichter und Personen, während die VQ in weniger wichtigen Bereichen wie Hintergründen reduziert wird.

ROI kann auch verwendet werden, um Details in den wichtigsten Bereichen in Control-Room-Anwendungen zu erhalten. Wenn beispielsweise ein Vorfall auf einer großen Videowand überwacht wird, ist es wichtig, dass die Details bei der Nachuntersuchung genau erkannt und für Schulungen genutzt werden können, damit aus Fehlern gelernt werden kann und Aktionspläne verbessert werden können. Das bedeutet, dass in Bereichen mit Textüberlagerungen (z. B. Uhren) anhand statischer Koordinaten für die ROI-Kodierung und Gesichter oder Personen anhand dynamischer und ML-basierter Koordinaten eine hohe VQ bewahrt wird.

avml-encoding.png

Verarbeitung natürlicher Sprache und LLMs

Language Models, die auf eine Vielzahl von AV-Anwendungsfällen angewendet werden können

Spracherkennung unter Verwendung von Natural Language Processing (NLP) und Large Language Models (LLMs) ist bereits im privaten Bereich zu finden, mit Alexa, Google und anderen intelligenten Geräten, die auf Befehle reagieren und Informationen und Medien präsentieren oder Aspekte des Hauses steuern können. Mit NLP und LLMs, die in AV-Geräte integriert sind, können dieselben Fähigkeiten auch in professionellen Medien eingesetzt werden. Damit werden die Benutzeroberflächen einfacher, Geräte lassen sich schneller und unkomplizierter einrichten und dieselben Aufgaben können auch ohne Cloud-Verbindung und entsprechenden Service-Abonnements erfüllt werden. Mit Edge AI können Sie effektiv technischen Support in Ihr AV-Produkt integrieren, da Sie Fragen zur Konfiguration beantworten, Fehler besprechen, die Netzwerkeinrichtung überprüfen und vorausschauende Wartungsarbeiten durchführen können.

avml-voice.png

Intelligente Beschilderung

Zielgerichtete Werbung und Monetarisierung von Zuschaueranalysen

Zielgerichtete Werbung ist der heilige Gral für Marketingexperten. Mithilfe verschiedener ML-Modelle zur Analyse der Betrachter einer digitalen Anzeige ist es möglich, relevantere und gezieltere Werbung zu schalten, die auf Metriken wie Alter und Geschlecht basiert. Das macht den Beschilderungsanbieter attraktiver für Werbetreibende, die bereit sind, für eine bessere Anzeigenpräsentation mehr zu bezahlen. Außerdem erhält der Werbetreibende wertvolle Daten, wie z. B. das Interesse der Betrachter, was zu einer besseren Nutzung des Services führen kann. Zudem kann er den Herstellern, die er vertritt, gewinnbringendes Feedback geben. Dem Betrachter werden außerdem relevante und stärker personalisierte Anzeigen präsentiert, was sein Einkaufserlebnis insgesamt verbessert. Alternative ML-Modelle können in interaktiven Kiosken eingesetzt werden, indem Touchscreens durch eine hygienischere Gestensteuerung ersetzt werden, mit der der Nutzer zur nächsten Anzeige gelangt oder insbesondereBestellungen aufgeben kann.

avml-intelligent-signage.png

Dynamisches Zuschneiden und Fenstersteuerung

Erstellen von Ausgaben in mehreren Fenstern über eine einzige Hi-Res-Kamera

Stellen Sie sich vor, Sie übertragen live eine Podiumsdiskussion über die Arbeit eines Künstlers an einer örtlichen Hochschule. Es handelt sich um eine Low-Budget-Veranstaltung mit einem Nischenpublikum, so dass die Produktionskosten sehr niedrig sein werden. In der Regel wird eine einzige Kamera verwendet, die das gesamte Podium mit gelegentlichem Zoomen und Schwenken aufnimmt. Mit ML-Gesichtsverfolgung ist es möglich, das gesamte Panel mit einer statischen 4K-Kamera aufzunehmen, jedoch automatisch zusätzliche HD-Fensterausgaben mit niedrigerer Auflösung um jeden der Diskussionsteilnehmer herum zu erstellen und diese während des Gesprächs zu verfolgen. Mit einer einzigen 4K-Kamera ist es also möglich, während des Live-Streams zwischen vier verschiedenen Aufnahmen zu wechseln – dem Weitwinkel und drei Nahaufnahmen. Dies schafft mehr visuelles Interesse und erfordert keine zusätzliche Kameraausrüstung. Der Kameramann kann zum Video -ixer werden und einfach auswählen, welche Frames gestreamt werden sollen.

Dieser Ansatz kann mit verschiedenen ML-Tracking-Modellen in professionellen Broadcast-Anwendungen wie Sportübertragungen oder in Umgebungen für die Zusammenarbeit angewendet werden, in denen mehrere Videokonferenzteilnehmer automatisch verfolgt werden können.

MakarenaLabs MuseBox

Machine-Learning-Systeme für Echtzeit-AV-Broadcasting-Anwendungen

Die vom AMD Partner MakarenaLabs erhältliche MuseBox ist ein System für maschinelles Lernen in Echtzeit, das für Pro AV- und Broadcasting-Anwendungen entwickelt wurde. Es kann mit Live-Streams für interaktive oder Live-Anwendungen eingesetzt werden, und es kann mit lokalen Dateien arbeiten, wenn Sie eine große Menge an Dateien zu verarbeiten haben und diese Dateien aus rechtlichen Gründen nicht außerhalb des lokalen Netzwerks zugänglich sind. Es basiert auf einem Zynq UltraScale+ MPSoC mit Multimedia- und ML-Stacks oder auf AMD Alveo Beschleunigerkarten für die Verarbeitung vor Ort. MuseBox unterstützt Gesichts- und Personenanalyse, Objekterkennung, Audioanalyse und mehr!

Die MakarenaLabs sind sehr erfahren im Bereich des maschinellen Lernens und bieten eine Reihe von Bibliotheken und Produkten für verschiedene AV-Anwendungsfälle an. Das Mooseka-System wird für die Audioanalyse, Erkennung und Merkmalsextraktion verwendet und erkennt in ihrem MRadio Stream Analyzer Musikinhalte für die Durchsetzung und den Schutz von Urheberrechten sowie für Radiowerbung und Marketinganalysen.

avml-makarena-labs.png