辰东,古风小说君子以泽

028-85291366

首頁(yè) - 新聞中心- 高新技術(shù)

企業(yè)動(dòng)態(tài)

政企參觀

黨群建設(shè)

常見(jiàn)問(wèn)題

高新技術(shù)

大模型一對(duì)一戰(zhàn)斗75萬(wàn)輪，GPT-4奪冠，Llama 3位列第五

2024-04-25 197次瀏覽

關(guān)于Llama 3，又有測(cè)試結(jié)果新鮮出爐——

大模型評(píng)測(cè)社區(qū)LMSYS發(fā)布了一份大模型排行榜單，Llama 3位列第五，英文單項(xiàng)與GPT-4并列第一。

不同于其他Benchmark，這份榜單的依據(jù)是模型一對(duì)一battle，由全網(wǎng)測(cè)評(píng)者自行命題并打分。

***終，Llama 3取得了榜單中的第五名，排在前面的是GPT-4的三個(gè)不同版本，以及Claude 3超大杯Opus。

而在英文單項(xiàng)榜單中，Llama 3反超了Claude，與GPT-4打成了平手。

對(duì)于這一結(jié)果，Meta的首席科學(xué)家LeCun十分高興，轉(zhuǎn)發(fā)了推文并留下了一個(gè)“Nice”。

PyTorch之父Soumith Chintala也激動(dòng)地表示，這樣的成果令人難以置信，對(duì)Meta感到驕傲。

Llama 3的400B版本還沒(méi)出來(lái)，單靠70B參數(shù)就獲得了第五名……
我還記得去年三月GPT-4發(fā)布的時(shí)候，達(dá)到與之相同的表現(xiàn)幾乎是一件不可能的事。
……
現(xiàn)在AI的普及化實(shí)在是令人難以置信，我對(duì)Meta AI的同仁們做出這樣的成功感到非常驕傲。

那么，這份榜單具體展示了什么樣的結(jié)果呢？

近90個(gè)模型對(duì)戰(zhàn)75萬(wàn)輪

截至***新榜單發(fā)布，LMSYS共收集了近75萬(wàn)次大模型solo對(duì)戰(zhàn)結(jié)果，涉及的模型達(dá)到了89款。

其中，Llama 3參與過(guò)的有1.27萬(wàn)次，GPT-4則有多個(gè)不同版本，***多的參與了6.8萬(wàn)次。

下面這張圖展示了部分熱門(mén)模型的比拼次數(shù)和勝率，圖中的兩項(xiàng)指標(biāo)都沒(méi)有統(tǒng)計(jì)平局的次數(shù)。

榜單方面，LMSYS分成了總榜和多個(gè)子榜單，GPT-4-Turbo位列第一，與之并列的是早一些的1106版本，以及Claude 3超大杯Opus。

另一個(gè)版本（0125）的GPT-4則位列其后，緊接著就是Llama 3了。

不過(guò)比較有意思的是，較新一些的0125，表現(xiàn)還不如老版本1106。

而在英文單項(xiàng)榜單中，Llama 3的成績(jī)直接和兩款GPT-4打成了平手，還反超了0125版本。

中文能力排行榜的第一名則由Claude 3 Opus和GPT-4-1106共享，Llama 3則已經(jīng)排到了20名開(kāi)外。

除了語(yǔ)言能力之外，榜單中還設(shè)置了長(zhǎng)文本和代碼能力排名，Llama 3也都名列前茅。

不過(guò)，LMSYS的“游戲規(guī)則”又具體是什么樣的呢？

人人都可參與的大模型評(píng)測(cè)

這是一個(gè)人人都可以參與的大模型測(cè)試，題目和評(píng)價(jià)標(biāo)準(zhǔn)，都由參與者自行決定。

而具體的“競(jìng)技”過(guò)程，又分成了battle和side-by-side兩種模式。

battle模式下，在測(cè)試界面輸入好問(wèn)題之后，系統(tǒng)會(huì)隨機(jī)調(diào)用庫(kù)中的兩個(gè)模型，而測(cè)試者并不知道系統(tǒng)到底抽中了誰(shuí)，界面中只顯示“模型A”和“模型B”。

在模型輸出答案后，測(cè)評(píng)人需要選擇哪個(gè)更好，或者是平手，當(dāng)然如果模型的表現(xiàn)都不符合預(yù)期，也有相應(yīng)的選項(xiàng)。

只有在做出選擇之后，模型的身份才會(huì)被揭開(kāi)。

side-by-side則是由用戶選擇指定的模型來(lái)PK，其余測(cè)試流程與battle模式相同

不過(guò)，只有battle的匿名模式下的投票結(jié)果才會(huì)被統(tǒng)計(jì)，且在對(duì)話過(guò)程中模型不小心暴露身份就會(huì)導(dǎo)致結(jié)果失效。

按照各個(gè)模型對(duì)其他模型的Win Rate，可以繪制出這樣的圖像：

而***終的排行榜，是利用Win Rate數(shù)據(jù)，通過(guò)Elo評(píng)價(jià)系統(tǒng)換算成分?jǐn)?shù)得到的。

Elo評(píng)價(jià)系統(tǒng)是一種計(jì)算玩家相對(duì)技能水平的方法，由美國(guó)物理學(xué)教授Arpad Elo設(shè)計(jì)。

具體到LMSYS，在初始條件下，所有模型的評(píng)分（R）都被設(shè)定為1000，然后根據(jù)這樣的公式計(jì)算出期待勝率（E）。

隨著測(cè)試的不斷進(jìn)行，會(huì)根據(jù)實(shí)際得分（S）對(duì)評(píng)分進(jìn)行修正，S有1、0和0.5三種取值，分別對(duì)應(yīng)獲勝、失敗和平手三種情況。

修正算法如下式所示，其中K為系數(shù)，需要測(cè)試者根據(jù)實(shí)際情況調(diào)整。

***終將所有有效數(shù)據(jù)納入計(jì)算后，就得到了模型的Elo評(píng)分。

不過(guò)實(shí)際操作過(guò)程中，LMSYS團(tuán)隊(duì)發(fā)現(xiàn)這種算法的穩(wěn)定性存在不足，于是又采用了統(tǒng)計(jì)學(xué)方法進(jìn)行了修正。

他們利用Bootstrap方法進(jìn)行重復(fù)采樣，得到了更穩(wěn)定的結(jié)果，并估計(jì)了置信度區(qū)間。

***終修正后的Elo評(píng)分，就成了榜單中的排列依據(jù)。

One More Thing

Llama 3已經(jīng)可以在大模型推理平臺(tái)Groq（不是馬斯克的Grok）上跑了。

這個(gè)平臺(tái)的***大亮點(diǎn)就是“快”，之前用Mixtral模型跑出過(guò)每秒近500 token的速度。

跑起Llama 3，也是相當(dāng)迅速，實(shí)測(cè)70B可以跑到每秒約300 Token，8B版本更是接近了800。

文章來(lái)源：

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

產(chǎn)品中心

工程案例

服務(wù)與支持

新聞中心

人力資源

關(guān)于我們

聯(lián)系我們

028-85291366

成都?？乒た卦O(shè)備有限公司

地址：610213 成都市雙流區(qū)華府大道四段33號(hào)

電話：028 - 85291486 028 - 85291246

川公網(wǎng)安備51012202001782 備案號(hào)：蜀ICP備2022014442號(hào)-1 網(wǎng)站建設(shè)：成都三以網(wǎng)絡(luò)

公眾號(hào)

不卡中文一二三区_久青免费在线视频_亚洲成人爱情岛_啦啦啦在线高清免费下载_久久伊人国产综合_又粗又长又硬色网视频_一色屋任你精品亚洲香蕉_6080新觉伦aa午夜视频_无码av毛片欣赏网站_午夜免费成人影院

近90個(gè)模型對(duì)戰(zhàn)75萬(wàn)輪

人人都可參與的大模型評(píng)測(cè)

One More Thing

克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI