抓住已知的,迎面未知的。
編者按:大模型、降本、出海,是多媒體從業者交流的高頻詞,內容與互動的需求層出不窮,大模型與AI的演進目不暇接,讓增速低走的影片雲迎面新的機遇和挑戰。作為一個跨越中美多媒體行業20年的親歷者(阿里雲影片雲負責人何亞明),與他的對話展現出一番場景,他沒有否認多媒體生態當下的問題,但他說新的機會就在眼前,更重要的是,他對多媒體滿懷希望。
策劃 撰寫 / LiveVideoStack、IMMENSE
從微軟、Facebook到阿里雲,何亞明跨越了中美兩大最活躍的經濟體,走過PC網際網路、移動網際網路到影片化的20多年,一直與多媒體為伴。
他認為,無論技術和產品如何演進,音影片作為最貼近使用者的展示方式大機率不會改變,這是他對多媒體生態依然充滿信心的原因之一。不過,隨著大模型向AGI不斷演進直至實現,多媒體從業者需要將AGI融入到多媒體技術中,甚至改變原本的工作流。比如在微軟,Azure media service“退役”了,但團隊並沒有流失,而是進入到Copilot ,讓Copilot與多媒體更好地結合。
在阿里雲影片雲,何亞明和團隊正在探索透過大模型提高影片處理和生產的效率,希望構建一個屬於影片的大模型,透過這個系統可以極大地提升業務決策效率,讓系統也變得更加的簡單。
在他看來,智慧時代也是人機互動的新時代,將帶來互動方式的變化,這也帶來了對影片技術的新需求。新需求主要體現在算力和時延兩個方面。算力方面,影片技術會更多和AI相結合,會消耗更多的算力。算力也會從服務端逐步向移動端擴充套件,影片處理和生產會變得更高效、更智慧。時延方面,隨著Vision Pro、Quest 3和Meta Smart Glasses上市,對延時的要求會變得更高,為了使用者體驗可能會誕生新的傳輸格式、壓縮演算法來進一步降低時延。即便死守著多媒體技術老本行,依然有許多工作要做。這是信心的第二個來源。
第三,何亞明認為AIGC會開始逐步商業化落地。比如目前傳統的服務行業(需要和人溝通的場景,需要24小時線上的)對數字人就有很大的需求。數字人被許多業內同行認為是當下為數不多的增量市場,也是多媒體技術與大模型結合非常成功的場景。包括電商直播、醫療諮詢、保險客服等都有非常明確的客戶需求和業務落地。
談到出海,他覺得國內公司積攢了很多能力,而海外的技術服務相對更標準化,更純粹地比拼技術能力,中國廠商能夠吃到非常多的紅利。尤其在社交、電商場景的應用創新,在海外給使用者的體驗依然是顛覆性的。
最後,何亞明希望(多媒體企業出海)能像電動車那樣,到海外有真正的定價權,因為我們擁有處於領導地位的質量和技術。他坦言,我們的行業需要更多的協同和規範,從純粹的競爭到取得行業共識,需要大家共同去努力。
總之,無論國內海外,面對多媒體的未來,一切都很難預測,但就像何亞明說的,有時候科技的發展就像一輛高速駛來的列車,你遠遠地看著,疑惑怎麼還不到?但當它真的從你旁邊經過時,可能一不小心就過去了。
以下是何亞明的對話實錄:
二十年,一場多媒體的緣分與螺旋
Q1
LiveVideoStack:我記得應該是2018年,亞明老師回國。我印象特別深刻。我接到了一封郵件,然後我一看,這個人好厲害:之前在Facebook、微軟,目前在阿里巴巴,我當時在想,我們有這麼大吸引力嗎?當時特別欣喜,後來順理成章地邀請亞明過來做2018 年LiveVideoStackCon北京的分享,後續也有陸陸續續的交流,現在想起來還有點夢幻。
我想從兩個視角提問。
首先是全球的視角,你的(工作)經歷基本上在流媒體這個圈子裡,差不多20多年了,是行業的前輩。第二,從國內的視角看,你回國這幾年正好趕上流媒體爆發式的增長,從千播大戰、教育、社交、遊戲等,包括疫情所帶來的遠端辦公需求的暴增,但現在(生態)又進入到一個調整階段,國內網際網路的流量在下降,使用者在逐步迴歸到混合或傳統的線下交流,同時大環境又受到整個經濟週期的影響。如果將這兩個視角結合在一起,你怎麼來回顧總結自己20多年與流媒體相愛相伴,簡單地說說你的感受。
何亞明 :這讓我回到了2018年的時候跟你第一次接觸的場景,我覺得在中國有一個LVS這樣一直在音影片圈子裡做交流的組織者還是非常感謝的,也非常感謝你的堅持,我們只是在不同的戰線都在堅持著。
言歸正傳,我最早踏入音影片圈子是2000年,那個時候剛剛去微軟,這是影片(應用)的第一波爆發,那時解決的問題就是把影片線上化,無論是Windows media player還是Real的RM,微軟的WAV,H.263、H.264才剛剛出來,所有人都想的是“我們把影片線上化”,於是各種player、各種各樣的媒體檔案的format湧現出來,但還沒有進化到流媒體,還停留在container這種format。
第二波則是直播行業出現。一開始是體育、賽事這樣的一些直播,那個時候微軟也積極地投入到各種流媒體協議的設計,從最早的media stream,smooth streaming (Dash的前身),然後Dash、HLS的各種協議,迎來了(影片應用)第二波爆發。
第三波是RTC時代。不管是Facebook的Messenger、Zoom、微信還是釘釘,特別是疫情以後,第三波RTC爆發把延遲從5到10秒降低到百毫秒級別,這也是我們過去經歷的關鍵階段。
我覺得音影片技術一直是呈螺旋式上升的,過程是起起伏伏的,任何基礎技術都是一樣的,它不可能永遠都在噴發。當你解決了技術的基本問題之後,投資和炒作就會降溫,但技術一直在發展。從我剛入行到現在,每天都在解決不同的技術問題,不會存在一個階段無事可做。不管怎樣起伏,我對音影片還是一直抱有熱愛和期望的。
緊跟著,下一波又到來。下一波應該是AI和AIGC相結合的,它有可能引爆我們影片行業裡非常多的需求增長。比如影片編碼,以前不管H.264、H.265、H.266或AV1、AVS,它都是基於人為的塊劃分,而基於大模型的編碼方式是不是能更加符合人眼特徵來做?這實際上是一個機會。每次當一個新技術出現的時候,音影片的底層技術也會出現一個大爆發,需求也會相應地增長。
總結來看(音影片)是一個螺旋式的發展,即使陷入增速低谷,很多事情我們還要做,整體上技術都是在往前推進。
從微軟到Meta,影片技術是創新必備的基礎力
Q2
LiveVideoStack:你橫跨中美,經歷了20多年的行業發展,如果對比國外與國內多媒體生態,你有什麼不同的感受?
何亞明:前段時間跟前同事聊天,聊到AI時代對流媒體的衝擊,可能有些表面看起來是負面的,但實際上背後可能並非如此。
可能你聽說了微軟把Azure media service“退役”了,Azure media service提供包括轉碼等各種基礎多媒體能力,微軟認為這是非常成熟的技術,很多供應商都可以來做。但微軟並沒有裁掉任何一個人,團隊全體進入到Windows Copilot,讓 Copilot與多媒體更好地結合。雖然(團隊)仍然做多媒體的老本行,但是要面臨Copilot AI這個新命題,這個是微軟的例子。
我也和很多Meta的同事聊,他們也經歷了非常多的變化,從All in元宇宙遇到各種挫折,但所有從事流媒體的人都還在,他們把媒體當作一項基本的能力,(鼓勵)大家去做創新的小專案,比如帶兩個攝像頭的手錶,聽起來挺無厘頭的,但在不斷地嘗試(流媒體)跟硬體、AI結合,把影片技術用到各個小的創新點上,這個趨勢跟國內的確不太一樣。
Q3
LiveVideoStack:最近有本關於FFmpeg的新書,也許未來講流媒體底層的書可能會越來越少,可能會出現“如何用Copilot做流媒體開發”,甚至透過自然語言,就可以做轉碼服務,推流,流媒體技術會更大眾化。
何亞明:是的。底層轉封裝、轉格式這些能力,不會成為多媒體從業者的競爭力。因為你會FFmpeg,所以你有競爭優勢,(未來)一定不是這樣的。但是我們一直在做To B,每天服務很多客戶,需要深度瞭解多媒體各種應用場景,瞭解業務的本質,對從業者的要求變得更高了。接下來你還要了解各種大模型,如何在大模型基礎上做fine tuning,做各種各樣下游的任務,這些都是我們所要具備的這個能力。
AI的決策提效,大模型的互動變革
Q4
LiveVideoStack:談到人工智慧大模型, 流媒體經過了一個快速發展期,現在進入到相對飽和的階段。如果從資訊理論的角度看,影片編碼我們已經接近通道理論的極限了,可能還有1%-2%需要突破,但遺留下來的問題,相對於我們的付出,回報已經很有限了。相較之下,大模型所帶來的增益非常明顯,甚至在某些場景下的編碼效率已經超過了傳統的編碼框架,從業者們應該以什麼樣的心態來看待這個行業?
這裡面有兩個視角,一個是相對狹隘的視角,還在做流媒體技術棧的這些人該怎麼辦?還有更廣義的視角,流媒體可以包容任何技術棧,無論是人工智慧還是GPT,都可以為我所用,我們雖然做的是流媒體,但不會拘泥於自身的技術棧。從這個角度來看,是不是流媒體未來還有非常大的空間,你怎麼看?
何亞明:首先我覺得GPT是一個正規化的變化。我們現在經歷的網際網路時代,在很大程度上解決了資訊不對稱的問題,減少了資訊差。儘管我們以前也用AI,但現在大模型下AI、AGI能力的湧現讓我覺得它不是一個簡單的增加效率或降低成本的問題,而更多帶來的是決策效率上的提升。所以大模型會給所有行業帶來變化,焦慮是正常的,但是我們也會看到後面更多的機會。
回到流媒體,不論這波AI(發展成)什麼樣,音影片一直是離使用者最近的,不論AI技術怎樣呈現(文生圖、文生影片),它展現的載體依然是影片類這種流媒體形式的。雖然現在可能只是簡單地用AI把影片畫質提升了,但我相信未來一定會帶來一些新的變化。
回顧網際網路的歷史,每次互動方式的變化都會帶來一場革命,而大模型帶來正規化的變化必然會引發互動形式的變化。從最早Windows、Mac這些GUI的圖形介面帶來了互動方式的飛躍,促成了網際網路的發展;用手指操作的手機進入到移動網際網路,又帶來新的互動方式。
在當下這個時代我們馬上面臨的是用自然語言來互動的介面,透過視覺跟空間感知的新的互動形式,實際上現在已經可以看到一些雛形了。與ChatGPT交流已經很驚豔了,但互動方式依然是文字,不過ChatGPT新版支援語音互動,我經常問ChatGPT一些書籍的問題,甚至已經不需要那些傳統的聽書軟體了。
除了這種互動方式,下一個變化,就是我們對這個世界的感知,而面對空間互動的感知又要依賴數字內容的湧現。總結來看,AI、AGI會讓數字資產、數字內容海量地增長,很多時候(這些內容)都是用影片來承載的,這對於影片從業者其實是個機會。
另外,互動方式的變化也帶來了對影片技術的新需求。不管是蘋果的Vision Pro,或者是 Meta Quest,又或是Smart Glasses,從大方向上來看,影片仍然是跟AI非常緊密的,它仍然可以站在AI技術的風口浪尖上面。
回到狹義的多媒體技術,我覺得影片從業者需要有更多的改變,因為我們經過這麼多年的努力(開源、標準化),現在影片的使用門檻已經變得非常低了,所以要主動去擁抱這波AIGC。
這也是為什麼阿里雲影片雲傳統做工程的同學也積極投入到影片演算法的研究裡面。但是好在開源的東西特別多,多模態大模型也很多,根據我們專有的知識庫來使用它,這是我們希望要解決的問題,也是每個多媒體從業者的機會。因為不管各種 AI 技術如何湧現、爆發,最後它還是要回到“你用什麼方式展現給你的客戶、你的使用者”上面來,就要回到流媒體技術上來。
反過來說,流媒體技術也會有新的發展,包括蘋果的Vision Pro,由此可能誕生新的format、新的傳輸的格式,再把互動的延遲降低,算力與AI、多媒體能力結合,雖然這些流媒體基礎技術方面聽起來並不是非常sexy,但都是基礎工作。
另外,AI讓內容爆發,結合互動方式的變化,影片不僅簡單地應用到泛娛樂的網際網路上,而是應用到各行各業中。對於多媒體從業者來說,是非常大的機會。
多媒體與AI互滲式發展,影片雲嚐到了甜頭
Q5
LiveVideoStack:大模型結合流媒體的小模型,或者細分場景,你和你的團隊最近在做哪些探索?有沒有一些工程的落地?幫助客戶在效率上有比較大的提升?
何亞明:對,實際上剛才講的AI跟流媒體的結合很早就有了,以前我們有各種各樣的演算法,包括窄帶高畫質影片增強的演算法,超高畫質、插幀、超分和摳圖等等。過去幾年AI跟影片的結合一直在演進,但是這波AIGC的確是讓我們看到了一些新機會。比如突破了一些技術瓶頸,比如利用大模型摳圖的效果(比傳統方式)會好很多,透過SAM、CLIP做影片的理解比以前傳統的打標籤精度和準確度會提高很多。
在阿里雲影片雲,我們認為AI與多媒體的結合分為三步。第一步,讓AI更好地融入到多媒體引擎裡。AI很多時候需要跑在GPU上,而一般的多媒體處理還跑在CPU上,內部的封裝格式都不一樣,你可能需要YUV,我可能需要壓縮格式,AI和多媒體處理都是基於各自的運算元,各自獨立。於是第一步我們做的就是在架構底層上,讓AI(能力)是媒體能力可以在最小的幀級別進行融合,AI能力變成像FFmpeg的一個filter,在架構上讓AI與多媒體有更好的結合。
第二步,我們正在做的用大模型平替傳統方法的工作。比如剛剛提到的摳圖,以及影片理解,都可以從平替中嚐到“甜頭"。
第三,我們一直在考慮,透過大模型參與到業務決策和客戶溝通中來。我們現在非常多的業務決策還是靠模板、人工配置,需要不斷地跟客戶溝通需求,這是我們在實施To B服務過程中的效率瓶頸。大模型可能提供決策能力,我們希望構建一個屬於影片的大模型,貼近我們的業務本質。我們有大量的客戶需求、案例與影片內容,基於這些資源,在通用大模型的基礎上,在多模態大模型基礎上fine tuning,定義好獎勵機制,最終構形出一個決策系統。我們希望這個大模型可以極大地提升決策效率,也讓系統也變得更加的簡單。這還要一步一步來實現。
Q6
LiveVideoStack:有沒有一些業務單點上可以看到比較明顯的收益了?
何亞明:在2023年的雲棲大會上我們展示了一些案例,其中一個,是在雲導播臺上利用大模型摳圖,能夠在多人複雜場景下實時摳圖,現在已經落地到產品裡了。廣電傳媒與電視臺的很多的同事看了以後覺得非常好。以前大家都覺得廣電傳媒有自己專業的工具效果更好,同時擔心資料安全問題不願意上雲,雲導播臺的實時摳圖確實打開了一個突破口。
第二,是大家都在聊的數字人,(透過大模型)讓數字人的體態更加自然,可以很快地訓練出相似度非常高的、非常自然的語音,再結合雲剪輯技術,批次生成數字人內容,雲棲大會現場,大家對這種技術也是非常關注的,央視CCTV-2也對我們的這項“數字人X雲剪輯”的技術應用做了現場報道。
第三,影片自動標籤。做媒體、做新聞是非常依賴影片標籤的,來搜尋和過濾內容。以前都是透過小模型打標籤、人工打標,週期長、成本高。現在透過多模態自動打標籤,泛化性非常好,目前正在落地中。在不同的場景具體的需求不同,比如在傳媒領域對內容的精度要求非常高。我們在和各行業的同事交流過程中發現,他們對於這項技術都非常感興趣,大模型幫我們打開了除網際網路泛娛樂之外的空間,可以真正地解決耗時耗力的工作效率問題。
Q7
LiveVideoStack:數字人應用比較主流的場景是什麼?電商直播帶貨、遊戲、社交陪聊?
何亞明:首先,直播帶貨是一個很大的場景,比如24小時無人講解帶貨。第二,在醫療和保險,比如小病的諮詢、保險客服等。這裡並不是簡單地訂兩個數字人,而是針對每個員工做數字分身,而且又不能讓平臺客戶覺得這是一個數字人(要給客戶更強的信任感),這就對數字人的要求很高,讓其具備了一些問題解答能力,更要在聲音和形態上都非常逼真,目前我們的數字人聲復刻能力已經達到和真人難辨的水平,而且訓練門檻和成本也很低。我發現,傳統的服務行業(需要和人溝通的場景,需要24小時線上的)對數字人的需求非常大。
AI時代,翻新影片雲的每一環技術
Q8
LiveVideoStack:剛剛也提到,大模型帶來的是互動方式的變革,也會降低流媒體從技術到應用的門檻。你們正在為未來做哪些準備?
何亞明:圍繞著AGI帶來的這一波,整個的互動方式變得更真實,一切都是圍繞著互動的內容來做,來應對相應的挑戰。
第一,互動形式的變化會帶來算力的挑戰。在服務端,現在GPU卡很難買,阿里雲也在著手解決這些問題,尤其是與CPU的廠商聯合起來最佳化演算法,(在推理的時候)儘可能擺脫GPU。雖然可能損失一些精度,但很多時候是可用的。同時為了節省GPU,讓CPU協助GPU,結合場景做最佳化,(一定程度上)彌補算力的不足。
另外在終端上有很多大模型落地,包括硬體廠商,比如高通驍龍8 Gen3上已經可以跑大語言模型,未來移動終端硬體的效能會進一步提升。基於大模型大量的算力要做端上的架構最佳化,實際上也有很多端上推理的架構,最佳化端智慧是我們現在看好的方向,讓算力在雲和端之間做好平衡。
第二,互動還帶來了延遲的挑戰。在高保真虛擬現實的場景下,(控制)延遲是非常重要的,不管是算力的延遲還是傳輸的延遲,都需要一張很好的傳輸網路,這也是我們一直在做的,以MediaUni(GRTN)一張網同時支援標準與低延遲直播、實時音視訊通話、雲渲染,資料傳輸、遠端控制等多元化業務,同時實現算網融合,達到高可靠和低成本的動態平衡。
整體來看,作為重要的融合,我們一直在打造這張傳輸與算力網,同時,在邊緣側部署了GPU算力,在上面提供智慧的媒體服務,把更多的多媒體引擎和AI引擎相結合。目前,我們的MediaService在幀級別融合媒體和AI能力,完成從傳統媒體處理到AIGC的頂層設計和進化,用AI重塑業務能力,最終實現媒體服務的智慧化、多樣化、高效化。
在影片編碼方面我們推動MediaCodec智慧編碼,將傳統編碼與AI深度結合,從商業視角,在努力達到影片質量、成本、算力需求的最佳平衡。同時,深入行業場景,提供簡單、低門檻的接入能力,透過MediaBox一體化終端套件,滿足影片能力在行業化、場景化、智慧化下能夠快速上線。
總結來看,在AI時代需要把以前做過的事情都再升級、再進化,影片雲的整個架構要迎接AI時代。我感覺AI時代發展很快,每天好像都有新興事物出來,日新月異。
悲觀者是對的,但樂觀者會成功
Q9
LiveVideoStack:國內已經進入到存量市場,內卷嚴重。在去年結束的LiveVideoStack深圳大會上,約1/3的話題都和降本有關。很多企業也在出海尋找機會,你認為行業什麼時候能夠回暖?
何亞明:的確,國內和國外的環境有很大區別。國內談降本談得很多,國內基本上所有行業都面臨經濟寒冬或資本寒冬,大家都想要先活下來。實際上可能有點過於悲觀了,當然我認為悲觀者永遠是對的,但是隻有樂觀者才有可能成功。
阿里雲影片雲去年也做了大量的降本工作,包括降低直播頻寬成本、伺服器成本,剛剛也講了端智慧,CPU與GPU混合計算等。另外在業務側,我們也透過技術讓直播的架構從傳統的三層到靈活的一層或兩層,包括對冷流最佳化等進一步降本。
國內競爭環境還是比較激烈的,更多追求的還是眼前,國外的環境更能看到未來的很多東西,所以誠懇地講,在中國做影片行業是比較難的。但還是希望商業環境能夠越來越好,可能美國也經歷過很粗暴的原始積累,但如今它的多媒體行業是有比較清晰的界限的,做CDN的、做流媒體的,大家都有自己focus的方向,行業規則也比較成熟、標準化。我相信中國各個網際網路廠商未來一定會意識到,建立行業的一些標準來共同發展。
回到你的問題,關於多媒體行業的回暖爆發時間,我很難預測,但我感覺會很快。有時候科技的發展就像一輛高速駛來的列車,你遠遠地看著,疑惑怎麼還不到?但當它真的從你旁邊經過時,可能一不小心就過去了。現在不像以往可以很safe地說3到5年的發展,已經很難知道下一代技術爆發什麼時候到來,也許就是2024。
前陣子Meta的朋友給我演示了Smart Glasses,透過攝像頭採集畫面,可以語音提問這是什麼東西?AI Glass背後是Meta的大語言模型,能夠回答你的各種問題,這個demo挺震撼的。當然他們也碰到包括延遲和響應速度的問題,(對於技術人和團隊而言)這些都是機會。如果(像Smart Glasses這樣的)消費級別的產品爆發,它會推著流媒體技術往新的方向走,我們可以在這些新的方向再來“卷”。
Q10
LiveVideoStack:最後一個問題,國內非常卷。大量的企業包括個人都想去海外,或者已經在做出海的事情了。你怎麼看出海?阿里雲影片雲出海面臨怎麼樣的局面?
何亞明:出海這個戰略應該是中國所有網際網路公司都在做的一個事兒。阿里的財報也提到,海外業務增長是最快的。我們在國內積攢了很多能力,可以去東南亞、中東和歐洲這些區域,能夠把我們的能力快速地應用到他們的產品上。而且海外的技術服務相對更標準化,更純粹地比拼技術能力,中國廠商會吃到非常多的紅利,包括我們在社交、電商場景的應用創新,在中國非常司空見慣了,但在海外給使用者的體驗還是顛覆性的。
在音影片的技術領域,中國和美國是走在前列的,出海也能夠把我們的技術輸出,幫助當地把他想要的應用快速孵化出來。我覺得這是一個雙贏的局面。我希望(多媒體企業出海)能像電動車那樣,到海外有真正的定價權,因為我們擁有處於領導地位的質量和技術。這是一個長期的賽道,我們的行業需要更多的協同和規範,從純粹的競爭到取得行業的共識,甚至形成真正的聯盟,這需要大家共同去努力的。
同時可以看到,國內與海外的音影片服務生態存在很大區別。海外的AWS、Azure media service,都是標準化和模組化的,很少提供端到端一體化服務,非常強調文件的標準化、介面的標準化以及各個產品之間統一的規範。這是需要整個生態來支撐的,不是某一家自己能做的。希望我們能夠共同改變一些東西,真正把(多媒體技術服務)做到標準化、靈活化。