Meta,重磅發(fā)布!
來(lái)源:證券時(shí)報(bào) 作者:周春媚 2025-04-06 13:11
Aa 大號(hào)字

開(kāi)源大模型元老,發(fā)布重磅更新。

北京時(shí)間4月6日凌晨,美國(guó)科技巨頭Meta推出了開(kāi)源人工智能模型Llama 4。據(jù)介紹,該模型目前目前有Scout和Maverick兩個(gè)版本,是Meta迄今為止最先進(jìn)的模型,也是同類(lèi)產(chǎn)品中多模態(tài)性最強(qiáng)的模型。

f307784d81af63b57779a62b1b2390b.png

在DeepSeek引發(fā)模型開(kāi)源浪潮以前,Meta一直是開(kāi)源模型的領(lǐng)先玩家及重要的行業(yè)奠基者。在ChatGPT橫空出世7個(gè)多月后,Meta就率先宣布開(kāi)源Llama 2,并且可免費(fèi)商用。這也成為大模型發(fā)展的分水嶺,是開(kāi)源模型社區(qū)的歷史性時(shí)刻。Llama第四代模型的發(fā)布,不僅是Meta應(yīng)對(duì)DeepSeek等新興開(kāi)源勢(shì)力的一次“回?fù)簟?,同時(shí)也推動(dòng)了開(kāi)源模型技術(shù)的進(jìn)一步發(fā)展和生態(tài)的進(jìn)一步完善。

大規(guī)模、多模態(tài)、長(zhǎng)文本的Llama 4發(fā)布

北京時(shí)間4月6日凌晨,Meta發(fā)布Llama 4系列首批模型,包括兩款高效模型Llama 4 Scout、Llama 4 Maverick。此外,Meta還預(yù)覽了其迄今最強(qiáng)大最智能的模型——Llama 4 Behemoth,是“新模型中的教師”。

Llama 4模型是Llama系列模型中首批采用混合專(zhuān)家(MoE)架構(gòu)的模型。這一模型也是DeepSeek系列模型采用的架構(gòu),與傳統(tǒng)的稠密模型相比,在MoE架構(gòu)中,單獨(dú)的token只會(huì)激活全部參數(shù)中的一小部分,訓(xùn)練和推理的計(jì)算效率更高。

首先,Llama 4的第一大特點(diǎn)是參數(shù)規(guī)模大,最先進(jìn)的Llama 4 Behemoth總參數(shù)高達(dá)2萬(wàn)億(作為對(duì)照,DeepSeek-R1總參數(shù)規(guī)模為6710億)。

其中,Llama 4 Scout面向文檔摘要與大型代碼庫(kù)推理任務(wù),專(zhuān)為高效信息提取與復(fù)雜邏輯推理打造,共有16位“專(zhuān)家”、1090億參數(shù)、170億激活參數(shù)量;Llama 4 Maverick則專(zhuān)注于多模態(tài)能力,支持視覺(jué)和語(yǔ)音輸入,具備頂級(jí)的多語(yǔ)言支持與編程能力,共有128位“專(zhuān)家”、4000億參數(shù)、170億激活參數(shù)量;Llama 4 Behemoth(預(yù)覽版)則是Meta未來(lái)最強(qiáng)大的AI模型之一,具備令人矚目的超大規(guī)模參數(shù)架構(gòu),具有2880億激活參數(shù)量,總參數(shù)高達(dá)2萬(wàn)億。

其次,Llama 4的另外一大特點(diǎn)是多模態(tài)能力突出。作為原生多模態(tài)模型,Llama 4采用了早期融合(Early Fusion)技術(shù),可以用海量的無(wú)標(biāo)簽文本、圖片和視頻數(shù)據(jù)一起來(lái)預(yù)訓(xùn)練模型,實(shí)現(xiàn)文本和視覺(jué)token無(wú)縫整合到統(tǒng)一的模型框架里。

據(jù)Meta介紹,Llama用各種圖像和視頻幀靜止圖像訓(xùn)練兩個(gè)模型,以賦予它們廣泛的視覺(jué)理解能力,包括時(shí)間活動(dòng)和相關(guān)圖像。這支持多圖像輸入與文本提示的無(wú)縫交互,用于視覺(jué)推理和理解任務(wù)。模型在預(yù)訓(xùn)練中最多使用48張圖像,后訓(xùn)練中測(cè)試了最多8張圖像,結(jié)果良好。

最后,Llama在長(zhǎng)文本能力上也取得了突破,具有超大的上下文窗口長(zhǎng)度。Llama 4 Scout 模型支持高達(dá)1000萬(wàn)token的上下文窗口,刷新了開(kāi)源模型的紀(jì)錄,而市場(chǎng)上其他領(lǐng)先模型如GPT-4o也未能達(dá)到此規(guī)模。超大上下文窗口使Llama 4在處理長(zhǎng)文檔、復(fù)雜對(duì)話和多輪推理任務(wù)時(shí)表現(xiàn)出色。

大模型競(jìng)爭(zhēng)趨于白熱化

作為開(kāi)源模型社區(qū)的“領(lǐng)頭羊”和佼佼者,Llama(Large Language Model Meta AI)系列模型由Meta在2022年推出。2023年,為應(yīng)對(duì)ChatGPT等領(lǐng)先閉源模型的挑戰(zhàn),Meta率先宣布開(kāi)源Llama 2,并且可免費(fèi)商用。這一開(kāi)源之舉激活了開(kāi)發(fā)者社區(qū)的創(chuàng)新潛力,此后基于Llama 2構(gòu)建的應(yīng)用項(xiàng)目數(shù)量大大增加,覆蓋各種領(lǐng)域,形成了一個(gè)充滿活力的生態(tài)系統(tǒng)。

2024年4月,Llama 3正式發(fā)布,在技術(shù)層面實(shí)現(xiàn)了諸多突破,最重要的是不僅在單語(yǔ)言任務(wù)上表現(xiàn)卓越,還實(shí)現(xiàn)了多模態(tài)處理能力,能夠同時(shí)理解并生成文本、圖像、音頻等多種類(lèi)型的數(shù)據(jù),從而開(kāi)啟了多模態(tài)的新紀(jì)元。

雖然Meta是開(kāi)源模型的重要奠基者,但是開(kāi)源領(lǐng)域的競(jìng)爭(zhēng)正變得日益激烈和焦灼,尤其是DeepSeek的崛起,對(duì)Meta在開(kāi)源模型社區(qū)的領(lǐng)先地位構(gòu)成了巨大的沖擊。

今年1月末,在DeepSeek剛剛在海外火爆出圈時(shí),就有Meta員工在匿名社區(qū)TeamBlind上爆料稱(chēng),僅用550萬(wàn)美元訓(xùn)練的DeepSeek-V3在基準(zhǔn)測(cè)試中已經(jīng)讓Llama模型相形見(jiàn)絀,Meta的工程師們正在爭(zhēng)分奪秒地分析DeepSeek,試圖復(fù)制其中的一切可能技術(shù)。該爆料帖還說(shuō),Meta管理層正面臨嚴(yán)峻的財(cái)務(wù)壓力,其生成式AI部門(mén)數(shù)十位高管,“每個(gè)人的年薪都超過(guò)了DeepSeek-V3的全部訓(xùn)練費(fèi)用。如何向公司高層解釋這種投入產(chǎn)出比,已成為他們的噩夢(mèng)”。

除了DeepSeek以外,阿里巴巴通義千問(wèn)系列開(kāi)源大模型也屢屢斬獲佳績(jī)。4月2日,全球最大的AI開(kāi)源社區(qū)Hugging Face更新了大模型榜單,阿里通義千問(wèn)近期開(kāi)源的端到端全模態(tài)大模型Qwen2.5-Omni登上總榜榜首。據(jù)了解,阿里至今已向全球開(kāi)源200多款模型,千問(wèn)衍生模型數(shù)量已突破10萬(wàn),超越美國(guó)Llama系列,成為全球最大的開(kāi)源模型族群。

在Llama 4發(fā)布之際,OpenAI首席執(zhí)行官山姆·奧特曼也對(duì)外透露了公司的模型發(fā)布計(jì)劃。他表示,OpenAI可能在幾周后發(fā)布最新的推理模型o3和最新的基座模型o4-mini,然后在幾個(gè)月后推出GPT-5。

DeepSeek-R2模型何時(shí)發(fā)布也備受市場(chǎng)關(guān)注。4月4日,DeepSeek與清華大學(xué)研究團(tuán)隊(duì)聯(lián)合發(fā)布題為《獎(jiǎng)勵(lì)模型的推理時(shí)Scaling方法及其在大規(guī)模語(yǔ)言模型中的應(yīng)用》的重磅論文,提出自我原則點(diǎn)評(píng)調(diào)優(yōu)(SPCT)與元獎(jiǎng)勵(lì)模型(Meta Reward Model)兩項(xiàng)核心技術(shù),為提升大語(yǔ)言模型的推理能力提供了全新方法論。雖然官方并未明確R2的發(fā)布時(shí)間,但這一成果被視為DeepSeek下一代推理模型R2的重要技術(shù)鋪墊。

技術(shù)的不斷突破及各家大模型的密集推出,表明大模型競(jìng)爭(zhēng)趨于白熱化,彼此間你追我趕將是未來(lái)一段時(shí)間的常態(tài)。業(yè)內(nèi)人士分析稱(chēng),模型能力的持續(xù)提升,推動(dòng)大模型競(jìng)爭(zhēng)進(jìn)入推理強(qiáng)化和應(yīng)用拓展的下半場(chǎng)賽程。個(gè)人智能體潛力初步顯現(xiàn),行業(yè)應(yīng)用漸次走深,開(kāi)源開(kāi)放日益成為大模型的核心競(jìng)爭(zhēng)力組成。大算力、多模態(tài)、強(qiáng)推理、廣開(kāi)源、準(zhǔn)數(shù)據(jù)、智能體、深應(yīng)用等,成為大模型發(fā)展的重要趨勢(shì)。

責(zé)任編輯: 陳英
e公司聲明:文章提及個(gè)股及內(nèi)容僅供參考,不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
更多相關(guān)文章
熱門(mén)解讀 更多
視頻推薦 更多
熱門(mén)股票 更多
股票名稱(chēng) 最新價(jià)
漲跌幅