Llama 3 發布，亮點在于 “小” 模型-開卷有益網

<big id="6uxw6"><nobr id="6uxw6"></nobr></big>

<code id="6uxw6"><small id="6uxw6"></small></code>

<big id="6uxw6"></big>

<code id="6uxw6"><small id="6uxw6"></small></code>

<code id="6uxw6"><nobr id="6uxw6"></nobr></code>

<code id="6uxw6"><small id="6uxw6"></small></code>

<thead id="6uxw6"><option id="6uxw6"></option></thead>

當前位置：首頁 > 探索 > Llama 3 發布，亮點在于 “小” 模型

游客發表

Llama 3 發布，亮點在于 “小” 模型

發帖時間：2024-04-20 05:19:26

[娛樂] 來源：開卷有益網

重新尋找 Scaling Laws。

文丨賀乾明
編輯丨黃俊杰

像一個人的布亮學習成長一樣，每個全新的點于大模型，都需要從大量的模型文本中學習 “知識”，才有能力去解決一個個問題。小

Google 訓練 70 億參數的布亮 Gemma 開源模型，讓它 “看過” 6 萬億 Token（6 萬億個詞）的點于文本。微軟投資的模型 Mistral 訓練 73 億參數模型，“看過” 8 萬億個 Token 的小文本。

用如此大規模的布亮數據訓練參數不到 100 億的模型，已經是點于行業中比較重的方法。按照 DeepMind 研究人員提出的模型策略，如果考慮性價比，小這么大的布亮模型，看 2000 億 Token 的點于文本就夠了。不少中國一線創業公司的同等規模大模型只用了 1 萬億～2 萬億個 Token 的文本。

Meta 的 CEO 馬克·扎克伯格（Mark Zuckerberg）不滿足于此，他直接把下一代開源大模型送進了 “縣中”，用更多習題拔高能力。Meta 昨夜推出的 Llama 3 系列大模型，80 億參數模型用了 15 萬億 Token 的訓練數據，比 Google 的多學了一倍還不止，是很多小公司產品的十倍。

根據 Meta 公布的數據，在 5 個常用大模型能力評估測試集上，它新發布的 80 億參數模型和 700 億參數模型，得分基本都比同級競爭對手高。尤其是 80 億參數的 Llama 3，各項評測得分大幅超過 Google 和 Mistral 開發的同級別模型，數學、編程能力翻倍。Meta 稱它們是目前 “功能最強大的、公開可用的大模型”。

Llama 3 在部分測試數據集上得分超過競爭對手。圖片來自 Meta。

Meta 透露，他們還在訓練 4050 億參數的大模型，初步評測得分達到 GPT-4 水平。這則消息幫 Llama 3 獲得大量關注。英偉達高級研究經理 Jim Fan 說，Meta 讓開源社區得到 GPT-4 級別的大模型會是一個行業分水嶺，將改變許多研究工作和創業公司的經營狀況。

OpenAI 原資深研究科學家安德烈·卡帕蒂（Andrej Karpathy）認為，80 億參數的 Llama 3 “會非常受歡迎”，效果接近參數更多的 GPT-3.5，而且需要的算力低、反應快，甚至可以在手機、電腦上本地運行，“希望大家繼承這個趨勢，訓練和發布用更長時間訓練更小的模型?！?/p>

打破 Scaling Laws：用超出行業預期的數據和算力訓練模型

2020 年初，OpenAI 提出大模型的 Scaling Laws，認為在 Transformer 架構中，要提升大模型的效果，需要按照特定比例提高訓練大模型的數據量、模型本身的參數以及算力。

這個規律在 OpenAI 隨后發布的 GPT-3 中得到驗證，他們調整這幾個元素的配比，以更低的成本訓練出更強的模型。

OpenAI 的接連成功，讓 Scaling Laws 成為許多研究者訓練大模型的關鍵指引。按照他們發現的規律，其他訓練條件不變，大模型參數每提升 5.3 倍，訓練數據量需要提升約 1.9 倍、算力提升 10 倍，是最有性價比的方案。

2022 年，DeepMind 的研究者發布論文，認為這個比例不對，低估了訓練數據量的要求。他們認為，算力提高 10 倍，模型參數和訓練數據量各提升約 3 倍才更有性價比。DeepMind 的新比例取得更好的效果，成為從業者訓練大模型的重要參考。

現在，Meta 又進一步提高訓練數據的重要性。根據 Meta 公布的信息，他們訓練 80 億參數的 Llama 3 時，把訓練數據提到 15 萬億 Token，是 DeepMind 方案估算的 75 倍，發現模型能力達到 700 億參數 Llama 2 的水平，大幅超過競爭對手。

Meta 為此付出更多算力——用 H100 訓練了 130 萬個小時，算力成本預計超過 100 萬美元。如果用 5000 張 H100 組成的集群計算，需要不間斷訓練大概 11 天。而在 Meta 只需要 2 天多，因為它有 2.4 萬張 H100 組成的算力集群。而且有兩個。

一場小模型競賽正在進行

根據 Meta 的說法，當前版本的 Llama 3 還沒有達到性能極限?！拔覀円恢笔褂玫拇笳Z言模型，明顯缺乏訓練。（訓練數據量）可能需要提高 100～1000 倍，甚至更多?！?安德烈·卡帕蒂說。

OpenAI 用 GPT-3.5 和 GPT-4 證明大模型的實力后，許多公司加速追趕的同時，也在研究如何用更低的成本利用大模型。

與傳統的軟件應用不同，大模型不僅開發起來費錢，運行起來（推理）也會消耗大量算力資源。大模型想要處理用戶輸入問題，基本要挨個處理文字中的每個字，處理 100 個字的問題，基本就要運行 100 遍大模型。

英偉達把它當作 GPU 銷量增長的空間，但對于想用大模型改造業務、創造新商業機會的公司，卻是負擔。發布 Llama 3 時，Meta 宣布把它整合到旗下每天有數十億人使用的 Instagram、Facebook 等產品中，如果用參數較大的模型，推理成本根本無法承受。

想要降低成本，最直接的方法是訓練參數更小的模型，讓用戶的手機、電腦直接在本地運行，分擔平臺的壓力。

怎么讓更小的模型有更好的效果，成了大模型公司們的競爭點。過去一年，Google 每次發布大模型，都會推出參數較小的模型。Anthropic 發布 Claude 3 系列時也采用類似的做法。不過它們沒有詳細公布小模型的參數，以及如何讓小模型有更好的能力。

根據 The Information 報道，微軟選擇利用 GPT-4 生成高質量數據，訓練更小的模型，以降低部署大模型應用的成本。

Meta 訓練 Llama 3 的方法截然不同，但最適合它。為了應對 TikTok 的競爭，Meta 在 2022 年采購了大量 H100，用于訓練更強的內容推薦模型，為它奠定算力優勢。

為了訓練 Llama 3，Meta 動用了兩個 2.4 萬張 H100 組成的訓練集群，今年計劃把 H100 數量推到 35 萬張——每張 30000 美元。大部分互聯網巨頭也只有數萬張 H100，而且不少還會對外出租。

Meta 接下來大概率會沿著相同的方向，繼續做更小的模型?！?0 億參數的模型，對于很多場景來說還不夠小?！?扎克伯格接受采訪說，“我很想看到一個 10 億參數，甚至 5 億參數的模型，看我們能用它做些什么?！?/p>

題圖來源：視覺中國

分享到：新浪微博 QQ空間騰訊微博人人網點點網復制網址打印

相關內容

隨機閱讀

熱門排行

友情鏈接

Copyright © 2024 Powered by Llama 3 發布，亮點在于 “小” 模型,開卷有益網 sitemap

无码av人妻精品一区二区三区抖音_CHINA中国妞TUBESEX_中文精品无码中文字幕无码专区_777爽死你无码免费看一二区