2023年,AI大模型無疑是國內外科技領域最受關注的話題之一。ChatGPT大火,人們似乎看到通用人工智慧的曙光。科技巨頭、創業者乃至各個行業紛紛推出自研大模型。據北京市科委等統計,截至2023年10月,國內大模型廠商及高校院所共計254家,上演“百模大戰”。
大模型熱潮中,小冰公司CEO李笛是一個特別的存在。小冰公司的前身是微軟(亞洲)網際網路工程院人工智慧小冰團隊,公司曾釋出過AI聊天機器人“小冰”。因此,當ChatGPT爆火時,小冰很容易被當作對比的物件。去年,在接受《中國新聞週刊》在內的媒體採訪時,李笛都提到,他承認大模型的進步,但並非大模型的“門徒”。他認為模型不用一味求大,更願意談技術如何商業化應用。
AI少女小冰。受訪者供圖
當時,李笛被看作是個“異類”。用他的話講,大模型最熱的時候,行業裡不用“信仰”這個詞就落伍了。到了2024年,經歷了卷百億甚至千億引數的軍備競賽後,國內大模型廠商逐漸務實,落地應用成為2024年行業關注的焦點。
日前,《中國新聞週刊》專訪小冰公司CEO李笛,他談起過去一年對大模型熱的感悟。現在的他語氣輕鬆,李笛坦言,2023年,他曾面臨極大壓力,甚至曾動搖不卷大模型的想法。
創新和保守天然對立,科技行業的人非常害怕被認為是保守的。但另一面,李笛從2013年加入小冰團隊,見證了人工智慧領域發展的幾次浪潮,很多公司在風口中迷失。和李笛的專訪,並不只是在探討大模型,而是一個人面對巨大誘惑和時代焦慮時,如何堅持自己,做一個長期主義者。
小冰CEO李笛 受訪者供圖
以下是李笛的自述。
“你不用‘信仰’這個詞就落伍了”
我們是國內較早接觸GPT大模型的一批人。2020年,小冰從微軟獨立出來前,我是微軟Bing搜尋引擎亞洲區總經理,微軟將ChatGPT放在搜尋引擎中,推出New Bing,我們都較早地看過了。當我們的興奮勁已經過去時,國內才開始興奮。
因此,我們也更早意識到,大模型有一些問題。比如,目前從技術上判斷,要實現人工智慧能力更大程度的飛躍,需要在GPT-4的基礎上,把引數規模再提升三個數量級,但人們在短期內無法解決算力的挑戰。此外,一味追求引數規模越來越大,並不會有新能力湧現。最近,行業裡也有一些公司開始推出小模型。去年2月,我還判斷過,如何商業落地是大模型的核心問題。過了近一年,業內越來越多開始討論大模型該如何應用。
去年,我觀察到,國內很多企業開始圍繞大模型進行軍備競賽,背後主要有三種考量。第一種是,GPT-4推出後,大模型沒有新能力的湧現,像是卡在了紅綠燈路口,但很多人還要衝刺,因為他們想賭當自己衝到紅綠燈路口時,紅燈變綠,自己取得突破,領先行業。這一判斷確實存在一定機率,但大部分情況下,技術創新迭代並非一飛沖天,而是發展一波後被卡住,一段時間後再迎來一波創新。這才是科技史的常態。
其次,國內現在有200多家大模型公司,其中很多並非傳統意義的人工智慧公司,而是各個垂直領域的企業,比如能源企業等。他們相信在掌握大模型技術後,能有機會打破該領域原有的競爭格局。這是因為大模型的基本特徵是大力出奇跡,准入門檻低,可以很快看到一個結果,給了不同行業的人一個幻想。但深入後人們會發現,結果不如想象中那麼美好。
最後一種是,他們只是把大模型當作一個概念,來獲得一個新的賣點,就像是當年的元宇宙。
我們觀察到了這些現象,所以,我不願意說“信仰大模型”,大模型只是我們眾多技術迭代的一部分。去年年初,你說大模型的技術好,還是比較客觀的,但後來逐漸演變成,如果你不用“信仰”這個詞就落伍了。我記得當時參加行業會議,在我前後演講的人講到大模型,都會提到“工業革命”。當一個行業只有用這麼誇張的表達才能證明不保守時,就一定是個非常大的泡沫。我不想神化大模型,它是個有用的工具,解決了很多過去的問題,但它不是靈丹妙藥。
我現在說的時候放鬆多了,因為行業現在開始有了這樣的共識。在人工智慧領域,一直沒有產生真正成功的面向企業和消費者的產品。2020年前,小冰還在微軟時,不太受外界影響。但2020年,小冰從微軟分拆為獨立公司運營,作為創業公司,我們還沒有能力決定自己的生存時,如果跟行業主流有很大不同,會有很多人不認同你。去年2月,就有投資人問我,你是不是反對大模型?有投資人甚至跟我說,小冰也要做超大規模的、超大引數的大模型,我也差點沒扛住。
外界對我們的誤解是,我們不做大模型。我們很早就在關注,而且一直深入其中。但我們不拼大引數,更關注的是中等引數規模和小引數規模大模型的可用性。很早Google就發過論文稱,650億引數以下的模型,沒有產生明顯的思維鏈能力。我們當時不這麼認為,現在回頭看,我們賭對了,引數在幾百億,甚至幾十億的大模型,也有這個能力。
今年1月,我們剛剛宣佈獲得“小冰大模型”的國內備案,併發布Rinna大模型等多款產品。早在去年,我們的日本團隊推出Rinna大模型。小冰大模型最大尺寸是 14B,即140億引數,最小的是3.6B的模型。3.6B的模型在國外專業榜單中下載量和質量評分都高於引數650億的Meta大模型,就是因為我們在預訓練資料上下了功夫。
2023年7月6日,上海,世界人工智慧大會(WAIC)開幕,展覽上一款會泡咖啡的服務機器人吸引觀眾眼球。來源:視覺中國
“被看作‘AI舊世代’,也是一種榮幸”
和其他行業相比,科技行業有一個突出現象:科技行業的人非常害怕被認為是保守的。在公開場合,當我們對一個新技術、特別是像大模型這麼亮眼的新技術發表評論時,哪怕只是客觀評價說“大模型是好的,但它不是全部,它沒有把過去很多東西顛覆掉”,就已經算是保守了。
我們在2013年組建小冰團隊,十年中,我們送走一波又一波風口追逐者,比如之前做智慧語音助手、智慧音箱等各種人工智慧產品的創業者。從玩家角度,這一次國內大模型的熱潮,活躍的多是近兩年成立人工智慧企業,因為很多公司都在過去一波波風口中迷失了。面對這種短期的熱潮,我們看似保守,但我們是目前為止存活越長的人工智慧企業之一。從這一角度來看,我們被一些聲音質疑為“AI舊世代”,也是一種“榮幸”。但另一面,我們也承受了不少壓力。
我們在微軟時,還算是在象牙塔,獨立出來後才發現,在科技行業想要堅持做一件事情,是非常奢侈的。因為中國的科技公司,本質上是由一級市場、二級市場“擊鼓傳花”來完成企業的基本輸血。很多公司及其投資人會把上市定義為最主要的目標。如果公司不追風口,就不能拿到下一筆融資,上一筆融資的投資人就沒辦法獲得更高的企業估值,也就沒有辦法跟LP(有限合夥人)交代。這也是人之常情,但這使得很多創業公司的戰略不得不走樣了。
前段時間,有訊息稱,一個剛畢業的自然語言處理專業的博士生,年薪就有300萬元,這是不合理的,也會影響博士生的自我職業認知。創業公司願意給出這麼高的薪酬,並不是因為他們給公司創造了價值,而是當公司去拉投資時,用以回覆投資人關注的指標,比如公司有多少博士,或者有多少從Open AI出來的人。有些博士生在創業公司待了三個月,又被另一家公司以更高的薪酬挖走。博士生肯定是開心的,但他們在創業公司間不斷流轉時,除了薪酬提升,沒有機會真正做有意義的研究。
你很難說這是投資人的問題,因為投資人要對LP負責。也很難說是LP的問題,因為他們掏錢就是為了獲得回報。這似乎是一個沒有人錯的事情,也是中國科技領域很難誕生原始創新的原因之一。
我們去年也曾面臨很大的壓力。投資界在經歷2022年巨大的失落情緒後迎來人工智慧的浪潮,投資人看到了春天。去年在人工智慧行業裡,固然有對大模型抱有熱情的人,他們往往是科研工作者。除此之外,更多科技公司表現出的是一種焦慮。就像應試教育下的心態,不能輸在起跑線上,儘管不知道它是什麼,但總覺得錯過一定會後悔。這種焦慮在行業內傳遞,但創新很難在焦慮中產生。
我個人也特別希望出現一個大模型,和小冰的對話方塊連線後,所有對話的問題都能解決,這是我做夢都會笑醒的事情。但這很難實現,背後還需要很多服務。這就像是一個個人電腦,不是說有一個CPU就得到了一切,還要有主機板,CPU本身也是一個超級大規模的積體電路,需要各種模組組合。
人工智慧領域從來不缺很酷的東西。當年,微軟利用人臉識別技術做了個應用叫“How Old”,上傳一張照片,就能識別年齡,一時間風靡。前一陣,機器人跳“科目三”也很酷。但真正缺的、值得我們重視的是商業模式的探索,這意味著並不只是賺錢,而是究竟如何讓人們真正認同人工智慧的價值,併為之買單。
我有一個印象深刻的體會,產品價值和技術不一定是息息相關的。比如有的機器人會跳舞,但人們玩膩了,就會把它忘掉。但你發現,很多女生從小買的布娃娃,毫無科技含量,但她們對它傾注了巨大的情感,有人甚至在長大後會花1萬塊錢去修復兒時的“夥伴”。技術在其中不一定需要扮演什麼角色。
今天,大家用大模型進行很多輪對話。很多人都認為,大模型要更智慧、更聰明,像愛因斯坦一樣。但生活中,我們不總是因為一個人足夠聰明,才會和對方交朋友。有的人可能笨笨的,但很善良,你就不把對方當朋友嗎?人不是這樣的。那為什麼我們在做科技產品時,就一定認為更先進的技術會更好?不一定,關鍵是如何把它用在更合適的地方。
前段時間,我在朋友圈看到,因為微軟上線了免費的大模型 Copilot移動版,很多人就說終於可以退訂ChatGPT Plus了,不用支付每個月20美元的會員費。這其中還有一個很有錢的人,他都認為20美元太貴。但你要想,有的學生在遊戲裡買“皮膚”都會花好幾百元。人不總是按照理性來衡量一些事情的。
2024年,我預測人工智慧行業發展會退熱,現在的大模型同質化嚴重,大家引數規模差不多,市面上用不了這麼多大模型。而且使用者的付費意願又不是很容易建立。一些去年融到錢的企業也可能會引發新的內卷,其實這些內卷的行為已經在發生了,只是在 2024 年可能會更明顯一些。
記者:楊智傑([email protected])