• <big id="6uxw6"><nobr id="6uxw6"></nobr></big>
    <code id="6uxw6"><small id="6uxw6"></small></code>
      <big id="6uxw6"></big>
      
        <code id="6uxw6"><small id="6uxw6"></small></code>

      <code id="6uxw6"><nobr id="6uxw6"></nobr></code>
    1. <code id="6uxw6"><small id="6uxw6"></small></code>

        <thead id="6uxw6"><option id="6uxw6"></option></thead>

        游客發表

        Llama 3 發布,亮點在于 “小” 模型

        發帖時間:2024-04-20 05:19:26



        重新尋找 Scaling Laws。

        文丨賀乾明
        編輯丨黃俊杰

        像一個人的布亮學習成長一樣,每個全新的點于大模型,都需要從大量的模型文本中學習 “知識”,才有能力去解決一個個問題。小

        Google 訓練 70 億參數的布亮 Gemma 開源模型,讓它 “看過” 6 萬億 Token(6 萬億個詞)的點于文本。微軟投資的模型 Mistral 訓練 73 億參數模型,“看過” 8 萬億個 Token 的小文本。

        用如此大規模的布亮數據訓練參數不到 100 億的模型,已經是點于行業中比較重的方法。按照 DeepMind 研究人員提出的模型策略,如果考慮性價比,小這么大的布亮模型,看 2000 億 Token 的點于文本就夠了。不少中國一線創業公司的同等規模大模型只用了 1 萬億~2 萬億個 Token 的文本。

        Meta 的 CEO 馬克·扎克伯格(Mark Zuckerberg)不滿足于此,他直接把下一代開源大模型送進了 “縣中”,用更多習題拔高能力。Meta 昨夜推出的 Llama 3 系列大模型,80 億參數模型用了 15 萬億 Token 的訓練數據,比 Google 的多學了一倍還不止,是很多小公司產品的十倍。

        根據 Meta 公布的數據,在 5 個常用大模型能力評估測試集上,它新發布的 80 億參數模型和 700 億參數模型,得分基本都比同級競爭對手高。尤其是 80 億參數的 Llama 3,各項評測得分大幅超過 Google 和 Mistral 開發的同級別模型,數學、編程能力翻倍。Meta 稱它們是目前 “功能最強大的、公開可用的大模型”。



        Llama 3 在部分測試數據集上得分超過競爭對手。圖片來自 Meta。

        Meta 透露,他們還在訓練 4050 億參數的大模型,初步評測得分達到 GPT-4 水平。這則消息幫 Llama 3 獲得大量關注。英偉達高級研究經理 Jim Fan 說,Meta 讓開源社區得到 GPT-4 級別的大模型會是一個行業分水嶺,將改變許多研究工作和創業公司的經營狀況。

        OpenAI 原資深研究科學家安德烈·卡帕蒂(Andrej Karpathy)認為,80 億參數的 Llama 3 “會非常受歡迎”,效果接近參數更多的 GPT-3.5,而且需要的算力低、反應快,甚至可以在手機、電腦上本地運行,“希望大家繼承這個趨勢,訓練和發布用更長時間訓練更小的模型?!?/p>

        打破 Scaling Laws:用超出行業預期的數據和算力訓練模型

        2020 年初,OpenAI 提出大模型的 Scaling Laws,認為在 Transformer 架構中,要提升大模型的效果,需要按照特定比例提高訓練大模型的數據量、模型本身的參數以及算力。

        這個規律在 OpenAI 隨后發布的 GPT-3 中得到驗證,他們調整這幾個元素的配比,以更低的成本訓練出更強的模型。

        OpenAI 的接連成功,讓 Scaling Laws 成為許多研究者訓練大模型的關鍵指引。按照他們發現的規律,其他訓練條件不變,大模型參數每提升 5.3 倍,訓練數據量需要提升約 1.9 倍、算力提升 10 倍,是最有性價比的方案。

        2022 年,DeepMind 的研究者發布論文,認為這個比例不對,低估了訓練數據量的要求。他們認為,算力提高 10 倍,模型參數和訓練數據量各提升約 3 倍才更有性價比。DeepMind 的新比例取得更好的效果,成為從業者訓練大模型的重要參考。

        現在,Meta 又進一步提高訓練數據的重要性。根據 Meta 公布的信息,他們訓練 80 億參數的 Llama 3 時,把訓練數據提到 15 萬億 Token,是 DeepMind 方案估算的 75 倍,發現模型能力達到 700 億參數 Llama 2 的水平,大幅超過競爭對手。

        Meta 為此付出更多算力——用 H100 訓練了 130 萬個小時,算力成本預計超過 100 萬美元。如果用 5000 張 H100 組成的集群計算,需要不間斷訓練大概 11 天。而在 Meta 只需要 2 天多,因為它有 2.4 萬張 H100 組成的算力集群。而且有兩個。

        一場小模型競賽正在進行

        根據 Meta 的說法,當前版本的 Llama 3 還沒有達到性能極限?!拔覀円恢笔褂玫拇笳Z言模型,明顯缺乏訓練。(訓練數據量)可能需要提高 100~1000 倍,甚至更多?!?安德烈·卡帕蒂說。

        OpenAI 用 GPT-3.5 和 GPT-4 證明大模型的實力后,許多公司加速追趕的同時,也在研究如何用更低的成本利用大模型。

        與傳統的軟件應用不同,大模型不僅開發起來費錢,運行起來(推理)也會消耗大量算力資源。大模型想要處理用戶輸入問題,基本要挨個處理文字中的每個字,處理 100 個字的問題,基本就要運行 100 遍大模型。

        英偉達把它當作 GPU 銷量增長的空間,但對于想用大模型改造業務、創造新商業機會的公司,卻是負擔。發布 Llama 3 時,Meta 宣布把它整合到旗下每天有數十億人使用的 Instagram、Facebook 等產品中,如果用參數較大的模型,推理成本根本無法承受。

        想要降低成本,最直接的方法是訓練參數更小的模型,讓用戶的手機、電腦直接在本地運行,分擔平臺的壓力。

        怎么讓更小的模型有更好的效果,成了大模型公司們的競爭點。過去一年,Google 每次發布大模型,都會推出參數較小的模型。Anthropic 發布 Claude 3 系列時也采用類似的做法。不過它們沒有詳細公布小模型的參數,以及如何讓小模型有更好的能力。

        根據 The Information 報道,微軟選擇利用 GPT-4 生成高質量數據,訓練更小的模型,以降低部署大模型應用的成本。

        Meta 訓練 Llama 3 的方法截然不同,但最適合它。為了應對 TikTok 的競爭,Meta 在 2022 年采購了大量 H100,用于訓練更強的內容推薦模型,為它奠定算力優勢。

        為了訓練 Llama 3,Meta 動用了兩個 2.4 萬張 H100 組成的訓練集群,今年計劃把 H100 數量推到 35 萬張——每張 30000 美元。大部分互聯網巨頭也只有數萬張 H100,而且不少還會對外出租。

        Meta 接下來大概率會沿著相同的方向,繼續做更小的模型?!?0 億參數的模型,對于很多場景來說還不夠小?!?扎克伯格接受采訪說,“我很想看到一個 10 億參數,甚至 5 億參數的模型,看我們能用它做些什么?!?/p>

        題圖來源:視覺中國

          熱門排行

          友情鏈接

          无码av人妻精品一区二区三区抖音_CHINA中国妞TUBESEX_中文精品无码中文字幕无码专区_777爽死你无码免费看一二区