透過 AV 內容獲利,並最佳化媒體工作流程
McKinsey 的調查指出,有 39% 的組織已在業務中採用某種形式的機器學習 (machine learning, ML)。儘管這種技術的採用相對而言尚在起步階段,但因為可提高效率、預測客戶行為和取得深入的商業情報,因此對 Pro AV 和廣播市場具有很高的吸引力。
媒體系統可以利用 AMD 平台上的 ML 功能,進行 AI 邊緣運算。不透過網路連線而直接在邊緣進行處理,就能在降低延遲方面獲得巨大的效能優勢,甚至可以解決許多關於雲端的隱私與儲存身分識別指標方面的疑慮。將這些 ML 功能與音訊和視訊處理管線整合至 AMD 的可調適平台,企業就能透過分析獲利、改善工作流程效率,同時強化可用性。最終,這些整合的 ML 功能可讓公司加速創新,並實現差異化。
機器學習解決方案 | 廣播使用案例 | Pro AV 使用案例 |
---|---|---|
視訊物體偵測 |
鎖定物體並建立邊界方框,以輸出原始影片的裁切部分 | 平移、傾斜和縮放攝影機控制,以對焦在講者身上;比裁切和縮放的品質更好 |
偵測特定物體,例如人、動物或車輛。透過方框將已識別物體周圍的區域界定起來,並將方框座標輸入至一個編碼器,以進行 ROI 編碼。 | ||
直播運動賽事的自動化 | ||
自然語言處理 |
語音轉文字隱藏式字幕或翻譯字幕 | 會議間自動記錄 |
腳本翻譯或電影區域化 | 偵測自助服務機互動過程中的語音壓力 | |
性別或年齡偵測 |
根據性別或年齡放送電子看板廣告 | |
視訊品質分析 |
偵測複雜的影像片段,並最佳化編碼參數 | |
情感分析 |
在直播過程中偵測演員的情緒,判斷演員的演繹方式是否符合導演的意願。 在影片中尋找特定情緒的演員。 基於創意/藝術意圖,在後製期間運用 ML 技術稍微調整演員的臉部表情 |
偵測使用數位自助服務機之人員的情緒 |
手勢偵測 |
以手勢掃動控制,避免觸碰互動式零售站或自助服務機的螢幕 在協同作業中控制攝影機運作 |
功能
針對感興趣區域編碼
使用 ML 最佳化編碼視訊頻寬以節省成本
處理大型視訊檔案和 UHD 內容的串流與儲存時,成本很容易累積暴增。針對感興趣區域 (Region-of-Interest, ROI) 編碼有助於解決此問題,透過降低內容的整體位元率,僅將最佳視訊品質 (video quality, VQ) 套用到臉孔和人員等目光會自然著重的區域,同時在背景等較不重要的區域降低 VQ。
ROI 也可用於控制室應用中,以保留重要區域的細節。舉例來說,如果有事件發生,而需要透過大型電視牆加以監控時,此技術便可在後續調查時精確掌握細節,並可用於訓練,如此一來便可從錯誤中學習,以改善行動計畫。這代表透過靜態座標,使用 ROI 編碼為文字圖層(例如時鐘)保留高 VQ,或使用動態和 ML 座標,清楚顯示臉孔或人員。

自然語言處理和 LLM
可套用至各種 AV 使用案例的語言模型
使用自然語言處理 (natural language processing, NLP) 和大型語言模型 (Large Language Models, LLM) 進行語音辨識已經普遍運用在家庭內,透過 Alexa、Google 和其他智慧型裝置,可以回應指令、呈現資訊和媒體,或是控制家中的各個層面。透過將 NLP 和 LLM 直接內建於 AV 裝置中,可以在專業媒體中應用相同功能,讓使用者介面更簡易、設備的安裝更快速簡單;不需雲端連線,也不需要任何相關的訂閱服務,就能執行相同的工作。透過 Edge AI,您可以有效地將技術支援建立在您的 AV 產品中,且能夠回答有關配置的問題、討論故障、檢查網路設定並執行預測性維護。

智慧型電子看板
呈現針對目標的廣告,並透過分析觀看者獲利
針對目標發送廣告是令行銷人員趨之若鶩的廣告方式。使用各種 ML 模型分析數位看板前的觀眾,就能根據年齡和性別等指標,提供更切合需求且具目標性的廣告。如此一來,電子看板供應商就更能吸引願意花更多成本製作優質廣告的客戶。這也能為廣告商產生如觀眾興趣等有價值的資料,進而提升服務的使用率,並為他們所代表的製造商提供可取得獲利的意見回饋。觀眾也會看到更相關且更加個人化的廣告,改善他們的整體購物體驗。互動式自助服務機可使用替代的 ML 模型,以更衛生的手勢控制取代觸控螢幕,讓客戶觀看下一則廣告或下單。

動態裁切和視窗建立
從單一高解析度攝影機建立多個視窗輸出
想像一下,我們現在要現場直播地方大學關於某位藝術家作品的一場專題座談。這是一場低預算的活動,目標對象是小眾市場,所以製作成本只能壓得很低。一般會使用單一攝影機拍攝整個座談,偶爾縮放和平移。透過 ML 臉部追蹤功能,可讓靜態的 4K 攝影機拍攝整個座談,但同時為每位與會成員自動額外建立解析度較低的 HD 視窗輸出,並在對話過程中追蹤這些成員。如此,便可透過單一 4K 攝影機輸出四個不同的輸出畫面,在直播期間來回切換廣角和三個特寫畫面。這可產生更多的視覺效果,而且無需架設額外的攝影機設備,可以由影片剪輯師擔任攝影師,只要選擇要直播的畫面即可。
這種方法可以應用在多種 ML 追蹤模型中,例如體育賽事等專業廣播應用,或是在協同合作環境中自動追蹤多位視訊會議參與者等。
MakarenaLabs MuseBox
即時 AV 廣播應用的機器學習系統
MuseBox 是 AMD 合作夥伴 MakarenaLabs 推出的即時機器學習系統,專為 Pro AV 和廣播應用所設計。它能使用在即時串流、互動,或是即時應用上,而且能在您有大量的檔案需要處理,或是因法律因素而無法在本機網路外部存取這些檔案時搭配本機檔案使用。它是以使用多媒體與 ML 堆疊的 Zynq UltraScale+ MPSoC 為基礎,在內部部署時,則架構在 AMD Alveo 加速器卡上。MuseBox 支援臉部與人員分析、物體偵測,以及音訊分析等各種功能!
MakarenaLabs 在機器學習方面擁有深厚經驗,並為各種 AV 使用案例提供一系列程式庫與產品。Mooseka 系統可用於音訊分析、辨識及特徵擷取,並可用於其 MRadio 直播分析工具以辨識音樂內容,進行著作權權利維護與保護、電台宣傳,以及行銷分析等。
