近年來,隨著科技不斷革新與發展,人工智慧(Artificial Intelligence,簡稱AI)逐漸嶄露頭角,成為社會各界關注的焦點話題之一。
其中,AI技術的發展成果之一便是我們所熟知的語音識別、影象處理等應用程式及相關硬體裝置的普及和精進。
在這場科技革命中,最受矚目的無疑是隸屬於全球知名人工智慧研究機構——OpenAI的對話式生成模型Sora。而此里程碑式的成就是否預示著AGI(通用人工智慧)實現的時間即將大幅縮減?這引發了業界的廣泛討論。本文將就此進行探討,以期為讀者提供一些深入思考。
首先,不得不承認,OpenAI開發的Sora確實具備一定的實質性突破。這項技術與傳統文字到語音(Text to Speech,簡稱TTS)或影象至語音轉換(Image to Speech,簡稱ITS)的方式相比,具有更加自然流暢的表現形式以及良好的使用者互動體驗。
這種新型音訊輸出方式結合了情感計算技術,能夠將文字表示為帶有情緒變化的聲音語言,從而在一定程度上提升AI產品的感知能力,讓它更接近於人類的交流方式。但是,儘管Sora模型取得了顯著進步,也不能說其能夠直接推動AGI在短時間內實現。因為AGI的實現需要面對諸如邏輯推理、知識表達等諸多複雜問題,這些都不是僅僅透過改進現有AI演算法或者模型結構能夠解決的。
其次,周鴻禕董事長在社交平臺上對Sora模型的評論引起了公眾的熱烈反響。他指出,AI不會很快顛覆所有行業,而是會激發更多人群的創新思維,進而引發出新的商業模式和產業方向。這裡周董所提出的觀點十分值得我們深思。
雖然AI可能無法完全取代人類勞動力,但是對於一部分工作內容較為簡單重複且可以被數字化的崗位而言,AI已經展現出了強大的替代能力,這種情況下再去探討AGI是否能夠迅速發展,似乎有些偏頗。
儘管由諸多60秒片段構成的影片或電影內容,無疑為廣告界、電影宣傳片以及短影片製作等領域注入了新的活力和創新性,但是從目前來看,Sora未必能夠在短期內超越其競爭對手並取得顯著的市場份額,反而有望作為TikTok的創意支援工具,發揮自身獨特的優勢與作用。
此外,周鴻禕先生也明確表示,我國大型模型的開發水平雖然看似已接近於谷歌母公司Alphabet旗下的超大規模效能AI模型GPT-3.5,然而實際上,若要達到GPT-4.0的標準,仍需走過漫長且艱難的一年半路程。
什麼是人工智慧?
總的來說,人工智慧的核心任務在於構建類似於人類意識與思維過程的模型,運用先進的機器學習技術和準確的資料分析策略,賦予機器高度模擬人類能力的可能性。
早自上世紀50年代,人工智慧這一理念便已嶄露頭角。受限於當時計算機處理能力與演算法的不足,使得人工智慧並未得到充分的實踐與廣泛應用。
直至2006年“深度學習”神經網路演算法應運而生,人工智慧步入新時代,在諸如語音辨識、影象識別以及自然語言處理等多個領域取得了顯著進展。這些成果再次向世人展示了人工智慧解放人類勞動的巨大潛力。
當前,佈局人工智慧產業,推動其發展已經成為了世界各國國家級戰略不可或缺的組成部分。
從整體角度來看,人工智慧產業鏈可以細分為基礎設施支援層、關鍵技術層以及應用層三個層次。
基礎設施層主要負責提供強大的計算效能及基礎設施支援,其內容涵蓋了人工智慧晶片、各類感測器、海量資料儲存以及強大的雲計算服務平臺。
其中,人工智慧晶片因其高度的技術壁壘,使其成為了這一層面的核心,目前學科的領先者主要包括Nvidia、Mobileye以及英特爾等國際知名科技巨頭。相比之下,我國在這個領域的實力相對較為薄弱。
OpenAl再現秘密武器
Open Al應該持有某些尚未公開披露的強大工具,這些工具既可以覆蓋像GPT-5這種先進模型,也包括機器自主學習自動生成內容(比如AIGC)等尖端技術。
顯然,Open Al與奧特曼有著相似的戰略智慧,懂得如何把握市場節奏,迄今為止只透露了部分技術,這使得一部分人推測中國在人工智慧領域與美國的差距可能正在逐漸擴大。
根據騰訊研究院統計資料顯示,截至2017年6月底,全球範圍內的人工智慧企業總數已經達到了驚人的2500餘家,其中美國以1000家的龐大數量領先世界,而中國緊隨其後,擁有的人工智慧企業達到590多家。
相形之下,美國的人工智慧企業不僅分佈廣泛,而且涵蓋了整個產業鏈條中的每一環,包括基礎層、技術層和應用層在內,全方位多層次地參與到人工智慧產業的各個熱點領域。
特別值得注意的是,美國在諸如演算法、晶片和資料等關鍵元素方面,比如自然語言處理、語音識別、機器學習應用、計算機視覺與影象處理、技術平臺構建、智慧無人機設計、智慧機器人研發、自動駕駛技術普及等等多個重要環節,均佔有顯著的技術優勢,在某些關鍵領域超越了中國。
從投資層面看,美國在人工智慧領域的資金投入遠遠超過了中國。具體來看,兩國在投資領域也呈現出明顯的分化現象:美國投資力量廣泛覆蓋了產業鏈的基礎層、技術層和應用層;而在中國,投資主要聚焦於應用層。
在美國的人工智慧初創企業中,排名靠前的三個熱門領域是自然語言處理、機器學習應用以及計算機視覺與影象處理;相對應地,在中國的人工智慧初創企業中,排名靠前的三個熱門領域是計算機視覺與影象處理、智慧機器人研發以及自然語言處理,呈現出中美兩國在人工智慧領域各具特色的發展態勢。
當然,人工智慧領域總體仍然主要由大型科技企業所主導,美國的蘋果、谷歌、微軟、亞馬遜和臉書這五大科技巨頭在人工智慧領域均具備卓越的競爭力;相比之下,在中國,除BAT外,其他大型科技企業在該領域的表現尚顯不足。
據推測,Open Al在訓練這個模型時,將會利用大量的影片素材作為學習樣本。由於使用了大體積的模型且採用了Diffusion技術,意味著它需要更深入地理解和感知我們生活的世界。因此,學習樣本很可能更多地來自影片和攝像裝置捕獲的各種影象資訊,這無疑將極大地豐富其知識儲備和提高其認知能力。
一旦人工智慧系統能夠連線攝像頭,並對包含在YouTube和TikTok在內的海量影片資源進行深度消化吸收,那麼其對現實世界的敏銳感知力與理解程度,無疑將遠遠超出傳統的文字學習方式。
Sora是什麼東西?
Sora乃是一種廣域推廣模式,以繁複的噪聲為發跡之源,從而具備了一次性建立整部影視作品或擴張影片時長的強大能力。這項技術的獨特魅力體現在能夠一氣呵成地完成多幀畫面的預測,確保了即便視界中主要場景短暫離去,影像主體仍然可以保持不變。
與通用引數模型(GPT)有著異曲同工之妙的是,索拉採用了變壓器架構作為技術支援,展現出強大且可擴充套件性的發展優勢。
在資料處理的環節中,OpenAI將影片及影象資料轉化為猶如GPT模型中所使用的“標記”那樣的處理單元——patch。
藉由這種整齊劃一的資料表達形式,我們得以在更豐富多元的視覺資料資源上對模型展開培訓和調優,覆蓋範圍包括各種不同的持續時間、解析度以及比例係數等因素。
Sora在借鑑以往對DALL·E和GPT模型深度探究的成果基礎上茁壯成長。依照DALL·E 3所採納的重述提示詞策略,索拉能夠為視覺訓練資料生成極具藝術性的標示,從而使得模型能夠更加精確無誤地遵循使用者所下達的文字指令。
除此以外,帶有這一模型進行工作時,不僅能夠僅依據簡潔明快的文字指令去生成相應的影片,同時更能夠實時抓取當前存在的靜止影象並迅速從中創作出新的影片作品,確保能讓原本的影象內容鮮活起來,並關注到哪怕是微不足道的細枝末節。
更為值得稱道的是,這一模型還能有效利用現有的影片素材,透過擴充套件或補充遺漏的畫面幀,使之如同繁星點點的彩虹那樣多姿多彩,這一特質可透過查閱技藝精湛的科技論文進一步深究更多相關詳情。
索拉正是基於這樣一種能夠深入理解並模擬現實環境的模型構建而成,引領著全球人工智慧領域前進的風向標。既然OpenAI堅信這一力作必將成為眾人期待已久的實現AGI的重要里程碑,那麼其輝煌的未來也就不言自明瞭。
OpenAI的Sora的厲害性讓人難以置信!
需明確知曉的是,此前諸多研究皆透過各類尖端技術來搭建影象生成模型,如週期性神經網路、生成式對抗網路、自迴歸變壓器及廣義擴散模型等方法。
這些方法通常僅聚焦於某種特定型別的視覺資料、相對短暫的影片或固定尺度的影片。然而Sora卻異乎尋常,作為一款可生成多種時長、寬高比例以及解析度的影片和影象的通用性視覺資料模型,甚至包括長達一分鐘的高畫質晰度影片。
有網友指出,“儘管Sora存在一定的不足之處(這些可被輕易檢測出),諸如其物理表現效果明顯體現為人為合成之物。然而,無可否認的是它將能夠深遠地變革眾多行業發展。試想一下利用這種全新的技術生成形態生動、極具個性化的廣告影片以實現精確定位,那必將是一個價值數萬億美元的龐大產業”!
為了深入評估Sora的實際效果,行業領袖GaborCselle將其與Pika、RunwayML以及StableVideo等業界知名工具進行了詳細的對比測試。
首先,他使用了與OpenAI示例中所提供的相同輸入指令。研究發現,其他主流工具所生成的影片長度基本上均在五秒左右,而Sora卻能在包含長達17秒影片場景的情況下,保持住動作和畫面的連貫性與協調感。
接下來,他調取並應用Sora的初始畫面做為參照物件,透過不斷精細化指令提示及控制攝像機運動,盡力使得其它模型產生與Sora相似的影象效果。相比之下,Sora在應對複雜且時長較久的影片場景時展現出了更為優越的效能表現。
鑑於此項技術所帶來的驚人效應,行業內士無不感慨稱道,Sora在 AI 影片製作領域無疑具備著里程碑式的革新意義。
Sora的出現帶來的便利
隨著Sora的亮相,公眾預測文生影片(Vance Video)製作的技術門檻將會大幅度降低。這意味著,作家、畫手或者其他擁有IP版權的創作者將更容易地把他們的小說、漫畫或其他型別的作品轉化成影片形式,甚至是具有連續性的電視劇集。
根據現有的Sora展示影片來看,該系統已具備生成包含複雜情境敘述的精準構圖的能力。有可能的情況下,曾經花費數月時間進行製作的小說漫畫影片,如今或許僅需幾天便可完成。包括對於短劇、互動遊戲以及大規模電視節目製作行業在內的所有行業來說,其技術門檻均有望大大降低。
以當前的影片為例,其主要情節圍繞著一隻貓咪試圖喚醒沉睡中的主人,然而主人卻故意視而不見,於是貓咪改變喚醒策略並最終達成目的的故事展開。
這個影片的效果非常出色,毫無疑問,這樣高水平的文生影片應當能夠滿足廣大短劇製作領域的需求。影視傳媒公司可以看到相對明確的收益預期,然而對於演員們來說,無疑是迎來了新的挑戰。
Sora模型的影響與挑戰
該模型的問世與普及必將在視覺藝術領域引發廣泛且深遠的變革影響力。首先,該模型大幅度降低了影片製作的入門難度,極大地拓寬了行業准入渠道,使得包括專業藝術家及廣大業餘愛好者在內的更為廣泛的人群皆有機會投身於視聽盛宴的建立過程之中。
無論你是資深的創作者亦或是初涉此道的普羅大眾,皆可藉助該模型的強大功能輕而易舉地鍛造出精美的影片作品。這無疑將大力推動影片創作領域的蓬勃興旺與繁榮昌盛。
其二,Sora模型顯著提升了視覺創意的效率和品質。得益於高度自動化生成影片內容的優勢,Sora模型能顯著壓縮製作流程,有效控制製作成本。同時,依託其卓越的語義理解能力以及高度自定義化特性,Sora模型能夠生產出更為精確、更富動感的影像內容,從而極大地優化了觀賞者的觀影體驗。
然而,當我們暢想並期待Sora模型所引領的未來之際,同樣也要對可能隨之而來的諸多問題與挑戰保持警惕。首要問題便是版權保護問題。鑑於intooch model擁有自動生成影片內容的潛能,侵犯他人版權的隱患難免存在。故此,我們亟須強化版權保護意識,以治完善的律法體系和創新性的技術策略以確保產出之影片內容不觸犯任何其他人的版權權益。
其次,Sora模型製造的影片作品亦可能包含誤導性或者失真的成分。因為模型是依據海量資料進行學習與生成的,若其間存在誤差或者偏差,則可能導致最終產出的影像內容出現誤導性或者失實現象。這無疑會給使用者和整個社會帶來不良後果。因此,我們必須加緊審查和管控模型生成的影片內容,務必使其真實可靠。
除此之外,我們還需高度關注模型可能引發的隱私權和安全性問題。比如,若在運用model生成影片作品時無法避免蒐集使用者個人資訊或其他敏感資料,則必須確保這些資料得以安全妥當地儲存和利用,防止資料洩露和濫用情況發生。
OpenAI承認Sora的侷限性並專注於檢測誤導性內容
儘管Sora在人工智慧領域展現出了令人矚目的發展成果,然而OpenAI從未忽視當前模型所存在的侷限和弱點。具體來說,Sora面臨著在準確模擬複雜環境下的物理特徵以及深入理解特殊因果關係案例等問題時的重重困境。
比如說,當Sora在生成的影片中呈現某位人物咬一口餅乾的情景時,很有可能無法在餅乾表面留下清晰可見的咬痕。為了最大程度防範Sora被濫用以創作深度偽造或是危害社會的內容,OpenAI正全力以赴研發各種工具,用於識別並剔除那些具有誤導性的資訊,同時以確保這項人工智慧工具能夠得到負責任、合理且合規的應用與利用。