聚昌福美源
  • 國際
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  • 數位
  • 社會
  • 媒體
  1. 首頁
  2. 科技

社群推薦|GPT-4與國產模型大橫評

2024-02-12 17:29:50

敬請注意,本文僅供參考,並不代表矽星GenAI之觀點。自2022年10月底ChatGPT橫空出世以來,經過近一年的發展,多家企業紛紛表示其研發的大規模語言模型已達到世界領先水平,甚至有些企業聲稱已逾越了GPT。然而,據最近釋出的上海人工智慧實驗室測評報告顯示,GPT-4仍穩居榜首,而我國自主研發的大規模語言模型與之之間的差距正在逐漸減小。本文將客觀地對我國三家知名大模型公司——智譜GLM-4、文心一言4.0以及位元組跳動公司的豆包——進行效能評估。

首先,我們需要明確測評的衡量標準。在傳統的主觀評價方式(太客觀的話,直接看評分即可)下,我們採用10分製作為評分標準。我們非常重視使用者的使用體驗,因此,對於每個問題的答案,我們會根據其滿足程度給予1至10分的評分。

接下來,我們將開始第一部分的測試,包括聯網查詢、資料分析、多模態文生圖、長文件理解以及智慧體等重要能力的測試。我們以這些效能作為評價的依據,並與GPT-4進行對比。

對於聯網查詢的功能,各品牌大模型是否能運用自如且準確無誤呢?下面,我們選取了兩個音樂領域的問題進行測試。

問題1:請問杭州周杰倫演唱會門票目前的售價情況?

問題2:旋轉保齡《老婆不在家》歌曲中,“她”更喜歡的歌手是Beyond和劉德華嗎?

在這次測試中,所有參與測試的大模型都能夠順利呼叫聯網搜尋功能獲得準確的資訊,豆包的呈現形式更為優雅。豆包在判斷上出現了一些偏差但總體效能不錯,其他品牌均合格獲得了10分的滿分。

此外,資料分析是本次測試的一大亮點。我們希望藉助大模型的力量,幫助我們進行海量資料的統計分析。

現在,請允許我們測試資料分析這項新的功能。請執行以下命令:統計requester為Othe。

豆包模型在此一環節獲得了10分的滿分。儘管豆包出現了一些錯誤,但其他三款產品得分同樣相當出色,並且在所有步驟中表現優異,這無疑表明中國自主研發的大模型正在迎頭趕上國際巨頭的步伐。

熱門資訊
  • 如何讓手指變長?小竅門大公開!
  • 磁力猫网页版在线官网
  • 陌陌怎麼按條件查詢
  • ppsspp怎麼開金手指
  • 震奮人心的訊息!中國人民銀行公告,5 月 1 日起,不管是誰
  • 龍珠官方全人物各個篇章的戰鬥力表,悟空竟然增長了上億倍
  • 何超瓊現身貴州惹爭議,在山間土地穿清涼緊身吊帶,被指不得體
  • 世界巨鷹,以吃獅子為生,翅膀超7米,身高超2米,至今沒找到天敵
  • 湯尤杯:3場3-2,世界第一輸球,2個小組最終排名出爐
  • 《復仇者聯盟5》,時間越來越緊迫,漫威還來得及鋪墊嗎?
  • 深扒之下才發現,“娶嬸為妻”的相聲名家戴志誠,竟是如此的惡劣
  • 耶倫門生成功“逼宮”王健林,下一個國貨巨頭遭瞄準
  • 雪梨斷崖式衰老臉腫成饅頭,關之琳畫紅唇身材緊緻:竟然是同齡人
  • “借你堂弟10萬,不然別認我”男人被妻兒趕出家門:誰給你養老?
  • 如何駁斥“沒錢就別生孩子”?網友:窮得只剩下生育能力了
  • 20張照片:“黑暗女王”一位蘇丹模特,黑的反光,你能看清她嗎?
  • 窮養情婦12年,最大成就是坐在瑪莎拉蒂裡痛罵小三?
  • 3-2!湯姆斯杯最新戰報:國羽男雙連續輸給韓國,丹麥勝馬來西亞
  • 女子遛狗不牽繩,狗撲向路人被罵,女子怒斥路人:憑什麼罵她的狗
  • 年輕女子,正在調整她剛從自動售貨機購買的絲襪,屁股都露出來了
  • 2024年NBA十大長髮球員
  • 莎頭小劇場:頭哥,當時是你先取關我的吧
  • 你見過最不解風情的男生有多誇張?網友:都暗示到臉上了,還嗯
  • 眉山沒想到,資陽也沒想到,如今的樂山,已成為全國關注的焦點!
  • 北京美女出差山東萊蕪市,回去後她是這樣評論山東萊蕪市的!
  • 蘭州沒想到,銀川也沒想到,如今的張掖,已成為全國關注的焦點!
  • 一二三旅葉王陶,百戰沙場顯英豪。知道誰是葉王陶嗎
  • LC時代的雙子座之亂在教皇的策略和處女座的助力之下得以平息
  • NPC也吃“CPU”這套?《逆水寒》NPC被玩家“玩壞了
  • 《地獄潛兵2》補丁01.000.300引發了關於削弱和強化的激烈爭論

©2024 聚昌福美源 版權所有

隱私政策 | 服務條款 | 聯繫我們