敬請注意,本文僅供參考,並不代表矽星GenAI之觀點。自2022年10月底ChatGPT橫空出世以來,經過近一年的發展,多家企業紛紛表示其研發的大規模語言模型已達到世界領先水平,甚至有些企業聲稱已逾越了GPT。然而,據最近釋出的上海人工智慧實驗室測評報告顯示,GPT-4仍穩居榜首,而我國自主研發的大規模語言模型與之之間的差距正在逐漸減小。本文將客觀地對我國三家知名大模型公司——智譜GLM-4、文心一言4.0以及位元組跳動公司的豆包——進行效能評估。
首先,我們需要明確測評的衡量標準。在傳統的主觀評價方式(太客觀的話,直接看評分即可)下,我們採用10分製作為評分標準。我們非常重視使用者的使用體驗,因此,對於每個問題的答案,我們會根據其滿足程度給予1至10分的評分。
接下來,我們將開始第一部分的測試,包括聯網查詢、資料分析、多模態文生圖、長文件理解以及智慧體等重要能力的測試。我們以這些效能作為評價的依據,並與GPT-4進行對比。
對於聯網查詢的功能,各品牌大模型是否能運用自如且準確無誤呢?下面,我們選取了兩個音樂領域的問題進行測試。
問題1:請問杭州周杰倫演唱會門票目前的售價情況?
問題2:旋轉保齡《老婆不在家》歌曲中,“她”更喜歡的歌手是Beyond和劉德華嗎?
在這次測試中,所有參與測試的大模型都能夠順利呼叫聯網搜尋功能獲得準確的資訊,豆包的呈現形式更為優雅。豆包在判斷上出現了一些偏差但總體效能不錯,其他品牌均合格獲得了10分的滿分。
此外,資料分析是本次測試的一大亮點。我們希望藉助大模型的力量,幫助我們進行海量資料的統計分析。
現在,請允許我們測試資料分析這項新的功能。請執行以下命令:統計requester為Othe。
豆包模型在此一環節獲得了10分的滿分。儘管豆包出現了一些錯誤,但其他三款產品得分同樣相當出色,並且在所有步驟中表現優異,這無疑表明中國自主研發的大模型正在迎頭趕上國際巨頭的步伐。