晉升業內新寵兒，MoE模型給了AI行業兩條關鍵出路

2024-07-15 09:51 來源：A5專欄我來投稿撤稿糾錯

文 | 智能相對論

作者 | 陳泊丞

今年以來，MoE模型成了AI行業的新寵兒。

一方面，越來越多的廠商在自家的閉源模型上采用了MoE架構。在海外，OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架構。

而在國內，昆侖萬維推出的天工3.0、浪潮信息發布的源2.0-M32、通義千問團隊發布的Qwen1.5-MoE-A2.7B、MiniMax全量發布的abab6、幻方量化旗下的DeepSeek發布的DeepSeek-MoE 16B等等也都屬于MoE模型。

另一方面，在MoE模型被廣泛應用的同時，也有部分廠商爭先開源了自家的MoE模型。前不久，昆侖萬維宣布開源2千億參數的Skywork-MoE。而在此之前，浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等，也都紛紛開源。

為什么MoE模型如此火爆，備受各大廠商的青睞？在開源的背后，MoE模型又是以什么樣的優勢使各大主流廠商成為其擁躉，試圖作為改變AI行業的利器？

MoE模型火爆的背后： 全新的AI解題思路

客觀來說，MoE模型的具體工作原理更接近中國的一句古語“術業有專攻”，通過把任務分門別類，然后分給多個特定的“專家”進行解決。

它的工作流程大致如此，首先數據會被分割為多個區塊（token），然后通過門控網絡技術（Gating Network）再把每組數據分配到特定的專家模型（Experts）進行處理，也就是讓專業的人處理專業的事，最終匯總所有專家的處理結果，根據關聯性加權輸出答案。

當然，這只是一個大致的思路，關于門控網絡的位置、模型、專家數量、以及MoE與Transformer架構的具體結合方案，各家方案都不盡相同，也逐漸成為各家競爭的方向——誰的算法更優，便能在這個流程上拉開MoE模型之間的差距。

像浪潮信息就提出了基于注意力機制的門控網絡（Attention Router），這種算法結構的亮點在于可以通過局部過濾增強的注意力機制（LFA, Localized Filtering-based Attention），率先學習相鄰詞之間的關聯性，然后再計算全局關聯性的方法，能夠更好地學習到自然語言的局部和全局的語言特征，對于自然語言的關聯語義理解更準確，從而更好地匹配專家模型，保證了專家之間協同處理數據的水平，促使模型精度得以提升。

基于注意力機制的門控網絡（Attention Router）

拋開目前各家廠商在算法結構上的創新與優化不談，MoE模型這種工作思路本身所帶來的性能提升就非常顯著——通過細粒度的數據分割和專家匹配，從而實現了更高的專家專業化和知識覆蓋。

這使得MoE模型在處理處理復雜任務時能夠更準確地捕捉和利用相關知識，提高了模型的性能和適用范圍。因此，「智能相對論」嘗試了去體驗天工3.0加持的AI搜索，就發現對于用戶較為籠統的問題，AI居然可以快速的完成拆解，并給出多個項目參數的詳細對比，屬實是強大。

天工AI搜索提問“對比一下小米su7和特斯拉model3”所得出的結果

由此我們可以看到，AI在對比兩款車型的過程中，巧妙地將這一問題拆解成了續航里程、動力性能、外觀設計、內飾設計、智能化與自動駕駛、市場表現與用戶口碑、價格等多個項目，分別處理得出較為完整且專業的答案。

這便是“術業有專攻”的優勢——MoE模型之所以受到越來越多廠商的關注，首要的關鍵就在于其所帶來的全新解決問題的思路促使模型的性能得到了較為顯著的提高。特別是伴隨著行業復雜問題的涌現，這一優勢將使得MoE模型得到更廣泛的應用。

各大廠商爭先開源MoE模型： 解決AI算力荒的另一條路徑

開源的意義在于讓MoE模型更好的普及。那么，對于市場而言，為什么要選擇MoE模型？

拋開性能來說，MoE模型更突出的一點優勢則在于算力效率的提升。

DeepSeek-MoE 16B在保持與7B參數規模模型相當的性能的同時，只需要大約40%的計算量。而37億參數的源2.0-M32在取得與700億參數LLaMA3相當性能水平的同時，所消耗的算力也僅為LLaMA3的1/19。

也就意味著，同樣的智能水平，MoE模型可以用更少的計算量和內存需求來實現。這得益于MoE模型在應用中并非要完全激活所有專家網絡，而只需要激活部分專家網絡就可以解決相關問題，很好避免了過去“殺雞用牛刀”的尷尬局面。

舉個例子，盡管DeepSeek-MoE 16B的總參數量為16.4B，但每次推理只激活約2.8B的參數。與此同時，它的部署成本較低，可以在單卡40G GPU上進行部署，這使得它在實際應用中更加輕量化、靈活且經濟。

在當前算力資源越來越緊張的“算力荒”局面下，MoE模型的出現和應用可以說為行業提供了一個較為現實且理想的解決方案。

更值得一提的是，MoE模型還可以輕松擴展到成百上千個專家，使得模型容量極大增加，同時也允許在大型分布式系統上進行并行計算。由于各個專家只負責一部分數據處理，因此在保持模型性能的同時，又能顯著降低了單個節點的內存和計算需求。

如此一來，AI能力的普惠便有了非?？尚械穆窂?。這樣的特性再加上廠商開源，將促使更多中小企業不需要重復投入大模型研發以及花費過多算力資源的情況下便能接入AI大模型，獲取相關的AI能力，促進技術普及和行業創新。

當然，在這個過程中，MoE模型廠商們在為市場提供開源技術的同時，也有機會吸引更多企業轉化成為付費用戶，進而走通商業化路徑。畢竟，MoE模型的優勢擺在眼前，接下來或許將有更多的企業斗都會嘗試新的架構來拓展AI能力，越早開源越能吸引更多市場主體接觸并參與其中。

但是，開源最關鍵的優勢還是在于MoE模型對當前算力問題的解決?；蛟S，隨著MoE模型被越來越多的企業所接受并應用，行業在獲得相應AI能力的同時也不必困頓于算力資源緊張的問題了。

寫在最后

MoE大模型作為當前人工智能領域的技術熱點，其獨特的架構和卓越的性能為人工智能的發展帶來了新的機遇。不管是應用還是開源，隨著技術的不斷進步和應用場景的不斷拓展，MoE大模型有望在更多領域發揮巨大的潛力。

MoE模型的本質在于為AI行業的發展提供了兩條思路，一是解決應用上的性能問題，讓AI有了更強大的解題思路。二是解決算力上的欠缺問題，讓AI有了更全面的發展空間。由此來看MoE模型能成為行業各大廠商的寵兒，也是水到渠成的事情。

*本文圖片均來源于網絡

此內容為【智能相對論】原創，

僅代表個人觀點，未經授權，任何人不得以任何方式使用，包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡，且未核實版權歸屬，不作為商業用途，如有侵犯，請作者與我們聯系。

•AI產業新媒體;

•澎湃新聞科技榜單月度top5;

•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能十萬個為什么》

•【重點關注領域】智能家電（含白電、黑電、智能手機、無人機等AIoT設備）、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。

申請創業報道，分享創業好點子。點擊此處，共同探討創業新機遇！

相關標簽: ai智能

從“+AI”到“AI+”，時代進入“Next Level”

“創新的速度比創新本身更重要?！卑Ｂ　ゑR斯克曾這樣說到。近日，由馬斯克所掌舵的特斯拉，在2024年世界人工智能大會上正式推出了第二代Optimus（擎天柱）人形機器人，距離第一代面世，僅過去9個月。加速升級的人形機器人不負所望，成了今年WAIC大會（世界人工智能大會）的一大看點。除此以外，今年的WA

標簽：

ai智能
OpenAI這個盤，阿里云們能接得住嗎？

降價，搶客……國產大模型跑起來了

標簽：

阿里云

ai智能
OpenAI斷供，國產大模型百億市場紛爭再起

北京時間6月25日凌晨，多個地區的OpenAI用戶收到了一封來自官方的郵件。郵件顯示：“您所使用的APl流量來自OpenAl目前不支持的地區。我們將從7月9日開始采取額外措施，阻止來自不在我們支持的國家和地區列表中的地區的APl接口?！彼^的API，就是應用程序編程接口。開發者通過使用OpenAI的

標簽：

ai智能

大模型
如何加速AI原生應用進程？華為云開天aPaaS提出新范式

每一次新舊代際轉換時，都會上演這樣的一幕：“暢想很多，落地很少”，AI原生應用似乎也不例外。關于AI原生應用的呼聲已經持續一段時間，但普通用戶對“AI原生”依然陌生。除了新業態普及的周期性，AI原生應用的爆發與否還涉及另一個議題，即怎么降低AI原生應用開發的難度和門檻。剛剛結束的華為開發者大會202

標簽：

ai智能
搞AI？中小企業拿什么和大廠拼？

近期，蘋果發布M4芯片，號稱“比當今任何AIPC的任何神經引擎都強！”緊隨其后微軟攜“Copilot+PCs”的概念加入AIPC激戰。截至目前，包括聯想、惠普、華為等多家主流PC廠商在內，已經至少推出了超50款AIPC產品。AI重塑行業的機遇，誰都不想錯過。對于企業來說，能否積極擁抱AIPC十分關鍵

標簽：

ai智能

天才少年21億買票上車，爭奪A股人形機器人第一股？

文/八真來源/節點財經具身智能賽道，誰最有可能拔得A股資本市場的頭籌？答案大概率是誕生剛剛兩年，由華為"天才少年"、B站百萬粉絲科技UP主稚暉君（彭志輝）創立的智元機器人。近期，從事新材料研發與生產的上緯新材（688585.SH）丟出重磅炸彈，宣布智元機器人及相關主體將通過收購其至少63.62%的股

標簽：

智能機器人
Manus「撤出」中國，昔日AI Agent新星為何倉促離場？

文/道哥大舉裁員、清空賬號、國內IP無法訪問——曾被譽為“中國AIAgent希望之星”的Manus，在估值飆至5億美元的高光時刻“閃離”中國市場。近日，Manus“裁員、出走”的消息在媒體端大量發酵。消息稱，Manus公司總部將由中國遷至新加坡，其國內團隊也將大幅裁撤——原有120人規模團隊除40余

標簽：

ai智能
靠“虛擬伴侶”賺錢的AI獨角獸，上市有點懸

虛擬伴侶，亂象叢生

標簽：

ai智能
Manus官網突現“地區不可用”提示，中國區業務戰略性調整引關注

四個月前邀請碼炒至10萬元，如今官網變灰、社交賬號清空，這家AI新貴的閃電遷移折射中國科技企業出海潮涌。7月11日，打開Manus官網的用戶發現一則突兀提示：“Manus在你所在的地區不可用”。而就在不久前，這個位置還顯示著“Manus中文版本正在開發中”的樂觀聲明。同時，Manus官方微博和小紅書

標簽：

ai智能
摩爾線程估值超 250 億，「中國英偉達」沖刺科創板

文/十界來源/節點財經一場圍繞算力自主的競賽，正在科創板上演。近日，國產全功能GPU廠商摩爾線程遞交科創板招股書，擬募資約80億人民幣，成為今年上半年科創板擬募資規模最大的沖刺者，也打響了“國產英偉達”上市的第一槍。據招股書顯示，摩爾線程自2020年成立以來，主營全功能GPU芯片的研發與銷售，以自主
百川智能高管集體跑路!王小川的醫療AI還能贏嗎?

“AI大模型六小虎”百川智能危機重重。這是前搜狗CEO王小川創辦的AI公司。昨天就爆出新聞，百川智能的聯合創始人離職，這是王小川入局AI的第一道大坎。接下的成敗非常關鍵：(1)拿下河北(2)學習科大訊飛百川智能離職高端概覽：(1)2025年7月10日，百川智能技術聯合創始人謝劍將離職。他是百川只能的

標簽：

人工智能

ai智能

百度智能云PaddleOCR 3.1正式發布：關鍵能力支持MCP

百度AI團隊今日正式推出PaddleOCR3.1版本，以突破性的多語言組合識別（MultilingualCompositionPerception,MCP）技術為核心，徹底重構復雜文檔處理邊界。此次升級標志著OCR領域首次實現對同一文檔內任意混合語言文本的精準識別，為全球化企業、跨境業務及多元文化場

標簽：

ai智能

ai技術
宇樹科技加速沖刺科創板IPO，人形機器人龍頭估值飆至120億元

“宇樹已形成硬件、算法、場景聯動的業務飛輪，自研率超95%的技術壁壘讓其成為全球機器人賽道不可忽視的中國力量?！笔壮藤Y本管理合伙人朱方文在追加投資時如是評價。7月7日，據每日經濟新聞從宇樹科技投資方處獲悉，國內人形機器人領軍企業宇樹科技（UnitreeRobotics）已明確計劃于科創板IPO，預計

標簽：

宇樹科技
OpenAI推出GPT-5：AI大統一時代的到來？

推理與多模態的終極融合，將徹底終結用戶在不同模型間切換的煩惱。7月7日，OpenAI正式確認將在今年夏季推出新一代人工智能模型GPT-5。這一突破性產品將整合現有的多個強大模型，特別是融合專注推理能力的“O系列”與具備多模態功能的“GPT系列”，為用戶提供前所未有的統一體驗。OpenAI開發者體驗負

標簽：

chatgpt
中小AI企業，沒有“高考”資格

高考一結束，忙壞了海內外一眾大模型。豆包、DeepSeek、ChatGPT、元寶、文心一言、通義千問……掀起了一波“AI趕考”大戰。據悉，去年高考期間，大模型的成績才勉強過一本線，今年集體晉升985。據悉，豆包甚至過了清北的錄取線。頭部大模型在高考“考場”上玩得不亦樂乎，中小AI創企的處境卻日益尷尬

標簽：

ai智能

加載更多

晉升業內新寵兒，MoE模型給了AI行業兩條關鍵出路

相關文章

從“+AI”到“AI+”，時代進入“Next Level”

OpenAI這個盤，阿里云們能接得住嗎？

OpenAI斷供，國產大模型百億市場紛爭再起

如何加速AI原生應用進程？華為云開天aPaaS提出新范式

搞AI？中小企業拿什么和大廠拼？

天才少年21億買票上車，爭奪A股人形機器人第一股？

Manus「撤出」中國，昔日AI Agent新星為何倉促離場？

靠“虛擬伴侶”賺錢的AI獨角獸，上市有點懸

Manus官網突現“地區不可用”提示，中國區業務戰略性調整引關注

摩爾線程估值超 250 億，「中國英偉達」沖刺科創板

百川智能高管集體跑路!王小川的醫療AI還能贏嗎?

百度智能云PaddleOCR 3.1正式發布：關鍵能力支持MCP

宇樹科技加速沖刺科創板IPO，人形機器人龍頭估值飆至120億元

OpenAI推出GPT-5：AI大統一時代的到來？

中小AI企業，沒有“高考”資格

熱門排行

編輯推薦

晉升業內新寵兒，MoE模型給了AI行業兩條關鍵出路

相關文章

熱門排行

編輯推薦

晉升業內新寵兒，MoE模型給了AI行業兩條關鍵出路