久久av网址,日韩不卡手机在线v区,亚洲精品国模,性欧美xxxx免费岛国不卡电影

首頁 > 人才就業(yè) > 人才就業(yè) > 小米AI新論文!雷軍千萬年薪要挖的DeepSeek天才少女署名

小米AI新論文!雷軍千萬年薪要挖的DeepSeek天才少女署名

發(fā)布時間:2025-10-17 21:09:53

10月14日,小米和北京大學(xué)聯(lián)合署名的論文發(fā)表于arXiv,曾被曝獲小米集團(tuán)創(chuàng)始人兼CEO雷軍以千萬年薪招募的DeepSeek“天才少女”羅福莉,出現(xiàn)在了這篇論文的通訊作者之列,但值得注意的是,論文作者中并沒有標(biāo)注羅福莉?qū)儆谛∶状竽P蛨F(tuán)隊(duì)

通訊作者中的羅福莉是95后,她本科就讀于北京師范大學(xué)計(jì)算機(jī)專業(yè),碩士畢業(yè)于北京大學(xué)計(jì)算語言學(xué)研究所計(jì)算語言學(xué)專業(yè)。隨后羅福莉曾在阿里巴巴達(dá)摩院主導(dǎo)開發(fā)了多語言預(yù)訓(xùn)練模型VECO,并推動了AliceMind的開源工作,2022年入職DeepSeek,參與了MoE大模型DeepSeek-V2的研發(fā)。去年年底,小米被曝以千萬年薪挖角DeepSeek-V2核心開發(fā)者之一羅福莉,使其沖上熱搜,但雙方至今都未公開聲明是否正式入職小米。

DeepSeek“天才少女”羅福莉(圖源:羅福莉個人公眾號)

這篇論文提出了提升MoE模型強(qiáng)化學(xué)習(xí)訓(xùn)練的新方法Rollout Routing Replay(R3)。實(shí)驗(yàn)結(jié)果證明,R3的整體性能優(yōu)于GRPO、TIS這類強(qiáng)化學(xué)習(xí)領(lǐng)域提升模型性能的優(yōu)化算法,且引入R3的所有組合方法全過程無崩盤,訓(xùn)練過程中訓(xùn)練-推理KL散度等始終較低,在不影響訓(xùn)練速度的情況下,使得極端token比例減少一個量級。

當(dāng)下,強(qiáng)化學(xué)習(xí)(RL)已成為提升大語言模型能力的關(guān)鍵方法。然而,在MoE模型中,路由機(jī)制往往會引入不穩(wěn)定性,甚至導(dǎo)致強(qiáng)化學(xué)習(xí)訓(xùn)練崩潰,但現(xiàn)有的引入重要性采樣機(jī)制等并不能提升訓(xùn)練穩(wěn)定性。不同于此前采取諸如丟棄差異較大的數(shù)據(jù)之類的變通方法,這篇論文的研究人員希望通過解決路由分布也就是R3來根本性解決這個問題。

論文地址:https://arxiv.org/pdf/2510.11370

一、破解強(qiáng)化學(xué)習(xí)崩潰的關(guān)鍵方法,小米團(tuán)隊(duì)提出R3

強(qiáng)化學(xué)習(xí)已成為大語言模型后期訓(xùn)練的基石,利用大規(guī)模強(qiáng)化學(xué)習(xí),大模型更深入、更廣泛推理,獲得解決復(fù)雜問題所需的高級能力,但其面臨的關(guān)鍵挑戰(zhàn)是如何平衡效率和穩(wěn)定性。

現(xiàn)代強(qiáng)化學(xué)習(xí)框架通常使用不同的引擎進(jìn)行推理和訓(xùn)練用于部署,但這種架構(gòu)上的分離可能導(dǎo)致token概率出現(xiàn)分歧,甚至可能導(dǎo)致災(zāi)難性的強(qiáng)化學(xué)習(xí)崩潰。然而,現(xiàn)有的改進(jìn)方法并不能完全解決MoE模型上進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練時出現(xiàn)的強(qiáng)化學(xué)習(xí)離線策略問題。

研究人員提出的R3,其工作原理是在序列生成期間從推理引擎捕獲路由分布,并將其直接重放到訓(xùn)練引擎中。這一過程可以縮小訓(xùn)練和推理之間的差距,其顯著特征是不同引擎生成的邏輯向量的KL散度(量化兩個概率分布之間的差異程度,值越小說明兩個分布越接近)顯著降低,兩個階段之間概率差異顯著的token數(shù)量減少了大約一個數(shù)量級。

此外,該方法同時適用于在線策略(on-policy)和小批量(mini-batch)式離線策略強(qiáng)化學(xué)習(xí)(off-policy)場景。

論文提到了研究團(tuán)隊(duì)的三大主要貢獻(xiàn):

1、系統(tǒng)識別和分析了MoE模型中訓(xùn)練和推理之間的路由分布差異,強(qiáng)調(diào)了它們在訓(xùn)練不穩(wěn)定性中的作用;

2、提出Rollout Routing Replay,它重用訓(xùn)練引擎內(nèi)部的推理時間路由分布,以協(xié)調(diào)訓(xùn)練和推理之間的路由行為;

3、將R3應(yīng)用于多種RL設(shè)置進(jìn)行MoE強(qiáng)化學(xué)習(xí),并表明R3在穩(wěn)定性和整體性能方面優(yōu)于GSPO和TIS。

二、可顯著縮小訓(xùn)練-推理差異,對Agent任務(wù)大有裨益

R3的主要思路是在訓(xùn)練前向傳播過程中重用推理路由掩碼I,同時仍將softmax應(yīng)用于訓(xùn)練邏輯以保持梯度流。

這種設(shè)計(jì)主要有兩個目的:一是對齊訓(xùn)練和推理,確保訓(xùn)練重放期間使用的專家與推理期間選擇的專家相匹配,從而消除專家選擇中的不匹配;二是保留梯度數(shù)據(jù)流,通過僅重放掩碼,梯度仍然可以流回logits而不會干擾計(jì)算圖,這有助于有效地優(yōu)化路由器。

重放門控權(quán)重、重放輸出y的計(jì)算方式

具體來看,R3在效率優(yōu)化上,通過路由掩碼緩存(Router Mask Caching)適配多輪對話場景,降低計(jì)算開銷

其論文提到,緩存的路由掩碼具有相似的屬性,對于相同的前綴token,MoE路由器應(yīng)該產(chǎn)生相同的結(jié)果,因此來自推理引擎的路由掩碼可以與前綴KVCache一起緩存。

對于每個層和token前綴,相應(yīng)的路由掩碼都存儲在KVCache中。當(dāng)相同的前綴出現(xiàn)并命中緩存時,這些掩碼可以被重用,從而無需重新計(jì)算,這使得R3能夠與前綴緩存機(jī)制無縫集成。

研究人員稱,緩存路由掩碼在Agent場景中有較大應(yīng)用空間。例如軟件工程和網(wǎng)頁瀏覽等Agent任務(wù),都涉及自回歸生成和工具調(diào)用之間的多輪交互,為了提高效率,這些過程直接重用了前幾輪的KVCache,因此無需重新生成已計(jì)算的數(shù)據(jù)。路由掩碼緩存使R3能夠在強(qiáng)化學(xué)習(xí)代理任務(wù)中保持高效,而無需重新預(yù)填充以生成路由掩碼。

為了證明R3在縮小訓(xùn)練-推理差異上的有效性,研究人員使用Qwen3-30B-A3B模型進(jìn)行了驗(yàn)證,其將推理過程中獲得的路由分布緩存在SGLang上,并在Megatron框架內(nèi)重放它們。

使用Megatron進(jìn)行兩次前向傳播獲得的概率

結(jié)果表明,應(yīng)用R3后,訓(xùn)練和推理之間的KL散度從1.5×10?³減小到7.5×10??,接近于稠密模型的6.4×10??水平,這表明其訓(xùn)練-推理差異減少。

研究人員還繪制了使用R3的訓(xùn)練-推理差異比率的累積分布圖,對于MoE模型,應(yīng)用R3可將具有較大訓(xùn)練推理差異的token的頻率降低一個數(shù)量級。

a、MoE模型中訓(xùn)練-推理差異的說明,b、MoE+R3模型中訓(xùn)練-推理差異的說明,c、稠密模型中訓(xùn)練-推理差異的說明,d、極端token分布函數(shù)

三、實(shí)測三大能力提升:整體性能、訓(xùn)練穩(wěn)定、優(yōu)化生成行為

為了評估R3對強(qiáng)化學(xué)習(xí)的性能改進(jìn),研究人員從BigMath、ORZ等開源數(shù)據(jù)集篩選約10萬道可驗(yàn)證數(shù)學(xué)題,采用AIME24、AIME25、AMC23和MATH500作為基準(zhǔn)數(shù)據(jù)集進(jìn)行評估,并在單次訓(xùn)練過程中每5個全局步驟測量一次模型性能。

其選擇的模型是Qwen3-30B-A3B-Base及其微調(diào)模型Qwen3-30B-A3B-SFT。

評估方式是每5個全局步驟記錄模型性能,最終報(bào)告最佳性能及對應(yīng)訓(xùn)練步驟,若模型后期性能驟降,同時追蹤訓(xùn)練崩盤步驟”。

實(shí)驗(yàn)結(jié)果表明,整體性能上,R3在多步更新場景,GRPO+R3平均得分68.05分,比GSPO高出1.29分;GSPO+R3進(jìn)一步提升至69.00,比單獨(dú)GSPO高2.24分。

單步更新場景,SFT模型上,GRPO+R3平均得分71.83分,比GRPO(62.23)高9.6分,比GRPO+TIS(66.24)高5.59分;Base模型上,GRPO+R3平均得分70.73,比GRPO(61.69)高9.04分。

主要評估結(jié)果

研究人員還發(fā)現(xiàn),將R3與TIS結(jié)合使用并不能帶來明顯的性能提升,甚至可能降低性能,例如在SFT模型的單小步設(shè)置下,TIS+R3的得分比單獨(dú)使用R3低1.69分。由于R3已經(jīng)顯著降低了訓(xùn)練和推理之間的策略差異,因此TIS的額外校正效果微乎其微。

訓(xùn)練穩(wěn)定性方面:如GRPO、GRPO+TIS等無R3的方法在單步更新場景中均出現(xiàn)崩盤,GRPO在60步崩盤、GRPO+TIS在105步崩盤。

引入R3后,所有組合方法均無崩盤,且訓(xùn)練過程中訓(xùn)練-推理KL散度等始終較低。

多步更新訓(xùn)練-推理崩潰分析

優(yōu)化與生成行為方面,在訓(xùn)練過程中,R3還能增強(qiáng)優(yōu)化穩(wěn)定性、探索行為和生成動態(tài)。下圖是研究人員繪制的單步+基礎(chǔ)模型組訓(xùn)練過程中的序列長度、梯度范數(shù)、生成熵和評估分?jǐn)?shù)。

wen3-30B-A3B-Base訓(xùn)練動態(tài)

結(jié)果顯示,R3具有更小的梯度范數(shù)、更平滑的序列增長模式和更穩(wěn)定的熵。實(shí)驗(yàn)中使用R3時,生成的序列長度在訓(xùn)練開始時迅速上升,表明R3能夠快速捕捉到正確的優(yōu)化方向,相比之下其他兩個訓(xùn)練過程在第80步之后才緩慢上升,并且波動更為明顯;R3始終保持較低的梯度范數(shù),表明優(yōu)化過程更加穩(wěn)定;實(shí)驗(yàn)使用R3時,熵在大約第25步后開始穩(wěn)步上升,表明模型更早地開始探索更優(yōu)策略,不使用R3時,熵上升得更晚,并且波動較大。

結(jié)語:聚焦MoE模型訓(xùn)練難題,小米提出新思路

MoE架構(gòu)如今已成為擴(kuò)展現(xiàn)代語言模型的基石,其采用門控網(wǎng)絡(luò),對每個token稀疏地僅激活一部分專家參數(shù),從而將模型的總參數(shù)數(shù)量與其推理成本分離開來,從而大幅提升了模型容量。然而,由于門控網(wǎng)絡(luò)的敏感性,MoE模型容易受到訓(xùn)練不穩(wěn)定性的影響,這使得路由穩(wěn)健性成為有效模型收斂的核心挑戰(zhàn)。

在這篇論文中,研究人員在訓(xùn)練過程中重用推理時的路由分布,以在保留梯度流的同時對齊專家選擇。這種思路或?yàn)樾袠I(yè)提供了新的研究思路。

人才就業(yè)更多>>

奕派科技在開年首月實(shí)現(xiàn)銷量2.1萬輛,較去年同期大幅增長145%,成為當(dāng)月增速最為迅猛的品牌之一 智元機(jī)器人在米蘭完成歐洲首秀,宣布進(jìn)軍意大利 嵐圖汽車2026年1月交付數(shù)據(jù)出爐,單月銷量達(dá)10515輛,較去年同期增長31% 零跑汽車公布最新交付數(shù)據(jù):1月,零跑全系交付32059臺,同比增長27% 勞斯萊斯首款純電SUV諜照 或于2026年發(fā)布 12月汽車行業(yè)利潤率跌破2%;理想汽車回應(yīng)調(diào)整研發(fā)架構(gòu) 奔馳經(jīng)銷商承壓,工商聯(lián)三次致函要求整改 豐田2025年第四季度在日EV銷量首超日產(chǎn) 自主五車躋身燃油前十,海鷗52.9萬+領(lǐng)跑新能源丨2025年燃油車型/新能源車型銷量榜 2025,“蔚小理零”逃離斬殺線 美團(tuán)與喜車未來智能科技公司在上海簽署合作協(xié)議,正式將汽車銷售納入其本地生活服務(wù)平臺 發(fā)掘掃地機(jī)器人品類的縱深前,石頭科技面對行業(yè)壓力,其敘事重心曾試著外移 消息稱華為Mate 80單品激活150萬,逆襲成年底國產(chǎn)旗艦第一 全新奇瑞QQ3純電車下月發(fā)布:靈犀座艙、獵鷹500智駕 我國移動網(wǎng)絡(luò)IPv6流量占比突破70%,多項(xiàng)關(guān)鍵指標(biāo)位居世界首位 華為:不會用非車規(guī)級的芯片 也不會用低質(zhì)量的器件 福特戰(zhàn)略掉頭!擁抱中國比亞迪,棄用韓國LG “到世界找敦煌——敦煌流散海外文物復(fù)制展”在和田地區(qū)博物館開展 郎卡杰唐卡創(chuàng)新藝術(shù)展亮相中國非遺館 呈現(xiàn)“紅色+非遺”實(shí)踐 “呂”音繞梁 “藝”臺好戲 唱響鄉(xiāng)村文化振興新篇章 馬斯克也服了?特斯拉開始測試華為鴻蒙數(shù)字車鑰匙了 最新手機(jī)芯片GPU跑分:聯(lián)發(fā)科首次超高通,小米3nm芯排第5 年終效率神器,華為MatePad Air 2025款助你輕松收官 大賺95億!拼了8年,虧了400多億后,中國內(nèi)存殺到全球第4了 雷軍揚(yáng)眉吐氣:SU7是20萬以上轎車第一,YU7是中大型SUV第一 馬斯克押注自動駕駛與機(jī)器人技術(shù)解鎖萬億薪酬 對標(biāo)馬斯克!Rivian為CEO定制46億美元十年天價薪酬合約 嵐圖泰山下線,標(biāo)志著東風(fēng)汽車新能源轉(zhuǎn)型及沖刺年度新能源100萬銷量目標(biāo)迎來重要節(jié)點(diǎn) 外資的新出路,學(xué)會當(dāng)“配角”? 因電動車需求疲軟,豐田再次推遲電池工廠建設(shè)
久久av网址,日韩不卡手机在线v区,亚洲精品国模,性欧美xxxx免费岛国不卡电影
久久精品观看| 狠狠色狠狠色综合日日tαg| 欧美日韩亚洲一区二区三区在线| 国产乱子精品一区二区在线观看| 亚洲美洲欧洲综合国产一区| 日韩av二区在线播放| 日本蜜桃在线观看视频| 亚洲精品日本| 日韩精彩视频在线观看| 丁香六月综合| 视频一区二区国产| 日韩极品在线观看| 精品欧美久久| 亚洲少妇诱惑| 久久中文在线| 蜜桃视频免费观看一区| 精品捆绑调教一区二区三区| 樱桃成人精品视频在线播放| 免费看一区二区三区| 欧美日韩1区| 亚洲欧洲另类| 91亚洲国产成人久久精品| 国产精品1luya在线播放| 久久99久久久精品欧美| 亚洲精一区二区三区| 日韩一区二区三区免费播放| 欧美国产中文高清| 日本国产一区| 男人的天堂久久精品| 亚洲不卡av不卡一区二区| 亚洲天堂成人| 国产欧美一区二区三区精品酒店| 欧美精品国产一区| 免费精品视频在线| 六月婷婷一区| 国产精品91一区二区三区| 国产在线不卡一区二区三区| 老牛影视一区二区三区| 在线一区av| 日韩av有码| 国产一区二区三区91| 国产精品色在线网站| 欧美激情aⅴ一区二区三区| 亚洲欧洲美洲国产香蕉| 国产美女精品| 午夜国产一区二区| 四虎国产精品免费久久| 亚洲一区不卡| 一区二区视频欧美| 在线国产日韩| 久久精品一区二区三区中文字幕| 免费看黄色91| 一区二区三区国产在线| 日本午夜大片a在线观看| 91综合网人人| se01亚洲视频| 在线国产一区二区| 国内在线观看一区二区三区| 精品中文在线| 成人高清一区| 午夜在线观看免费一区| 精品视频高潮| 不卡一二三区| 激情久久久久久| 国产精品7m凸凹视频分类| 伊人精品一区| 香蕉成人久久| 日本在线观看不卡视频| 精品1区2区3区4区| 中文字幕免费精品| 日韩高清国产一区在线| 精品国产日韩欧美精品国产欧美日韩一区二区三区 | 黄色网一区二区| 激情中国色综合| 亚洲啊v在线免费视频| 国产精品传媒麻豆hd| 成人一二三区| 日韩欧美精品一区二区综合视频| 日韩高清中文字幕一区| 国产精品videossex| 天堂成人国产精品一区| 蜜桃av一区二区三区电影| 亚洲aa在线| 国产精品欧美日韩一区| 成人高清一区| 欧美 日韩 国产精品免费观看| 欧美日韩一区二区三区四区在线观看| 在线亚洲观看| 欧美一区久久| 精品免费av| 久久久噜噜噜| 免费视频最近日韩| 亚洲精品国产日韩| 国产精品久久久久久久久免费高清| 国产精品视频一区二区三区| 国产91欧美| 亚洲福利久久| 蜜桃视频欧美| 亚洲在线观看| 国产伦精品一区二区三区千人斩| 免费一级欧美片在线观看网站| 视频一区中文字幕国产| 午夜久久99| 婷婷精品在线| 日本国产一区| 视频在线在亚洲| 激情久久99| 天堂成人国产精品一区| 日本少妇一区| 日韩在线成人| 成人台湾亚洲精品一区二区| 国产suv精品一区| 99精品在线| 日韩中文字幕视频网| 亚洲欧美日韩精品一区二区 | 另类亚洲自拍| 国产91在线精品| 精品五月天堂| 亚洲人妖在线| 日本一区免费网站| 日韩在线第七页| 日韩二区三区在线观看| 国产日韩三级| 亚洲欧美高清| 久久精品天堂| 成人午夜网址| 欧美日韩调教| 99亚洲视频| 日韩av一级| 成人日韩在线观看| 91精品福利观看| 国产精品毛片在线| 久久久久九九精品影院| 国产经典一区| 亚洲精品影视| 欧美精品黄色| 宅男在线一区| 精品一区电影| 久久精品99国产国产精| 久久国产日韩欧美精品| 香蕉视频成人在线观看| 久久91导航| 宅男噜噜噜66国产日韩在线观看| 久久精品99国产国产精| 久久国产99| 日本а中文在线天堂| 欧美日韩免费观看一区=区三区| av中文字幕在线观看第一页| 国产欧美日韩精品高清二区综合区 | 久久精品国产99国产| 日韩中文av| 成人污污视频| 群体交乱之放荡娇妻一区二区| 国产精品蜜月aⅴ在线| 亚洲资源在线| 香蕉久久久久久久av网站| 久久精品123| 中文字幕在线官网| 国产福利资源一区| 亚洲日本免费电影| 亚洲1区在线| 国产videos久久| 国产精品视频3p| 久久激情五月激情| 激情五月色综合国产精品| 欧洲一级精品| 国产精品久久777777毛茸茸| 日本不卡视频一二三区| 中文字幕一区二区精品区| 日韩一区二区久久| 另类av一区二区| 丝袜脚交一区二区| 丝袜国产日韩另类美女| 在线成人直播| 男女激情视频一区| 亚洲精品系列| 欧美精品一线| 久久精品一区二区国产| 国产精品nxnn| 麻豆视频一区| 视频小说一区二区| 国产美女撒尿一区二区| 91精品国产自产观看在线| 免费日韩av| 91欧美精品| 国产精品啊啊啊| 国产一区二区精品久| 精品国产中文字幕第一页| 国产一区成人| 日韩毛片一区| 免费成人在线影院| 亚洲精品自拍| 欧美亚洲激情| 综合日韩在线| 麻豆精品在线观看| 午夜av不卡| 免费观看日韩电影| 欧美久久久网站| 国产99在线| 麻豆精品久久久|