首頁明略動態(tài) 明略科技大模型再獲世界級突破！Mano以72B參數(shù)獲 OSWorld 榜單Specialized 模型第一

明略科技大模型再獲世界級突破！Mano以72B參數(shù)獲 OSWorld 榜單Specialized 模型第一

2025-11-11

明略科技（2718.HK）自研大模型 Mano 再獲世界級突破！

據(jù) OS-World E2E官方榜單最新數(shù)據(jù)（截至 2025 年10 月），明略科技自研的 GUI 智能體大模型 Mano 以 54.0% 的任務(wù)成功率刷新紀(jì)錄，位列 Specialized 模型第一、模型總榜第二，僅次于 Anthropic 最新發(fā)布的 Claude 4.5。

明略科技大模型再獲世界級突破！Mano以72B參數(shù)獲 OSWorld 榜單Specialized 模型第一 — *Mano以72B參數(shù)在OSWorld-Verified 榜單的 Foundation E2E GUI 評測總榜位列第二。*

與今年9月首次提交的數(shù)據(jù)相比，Mano 的參數(shù)規(guī)模從 7B 擴(kuò)展至 72B（約 720 億），任務(wù)完成率從40.1% 提升到 54.0%，性能實現(xiàn)了顯著提升。這也標(biāo)志著專用智能體在真實操作任務(wù)中的執(zhí)行能力達(dá)到新高度。

從語言到行動：智能體的下一階段

OSWorld 是目前全球最具權(quán)威的“操作智能”評測體系，涵蓋 10 類應(yīng)用、369 個跨應(yīng)用任務(wù)。它要求模型在真實的桌面和瀏覽器環(huán)境中執(zhí)行連續(xù)操作——例如打開電子表格、搜索信息、整理數(shù)據(jù)、完成填報。這類任務(wù)遠(yuǎn)比問答生成復(fù)雜，因為每一步都需要模型既理解內(nèi)容，又理解“界面結(jié)構(gòu)”，并能在多次操作中保持邏輯連貫。

在此前的測試中，即便是頂級的通用大模型，在 OSWorld 上的成功率也常停留在 30%–40% 區(qū)間。而 Mano 72B 的最新成績——54.0% 的端到端任務(wù)成功率——不僅刷新了中國模型的最高紀(jì)錄，也讓“專用智能體”第一次在這個“AI 操作考場”中站上了前列。

這背后的技術(shù)路線也與傳統(tǒng)語言模型截然不同。明略科技在最新版技術(shù)報告《Mano Technical Report》（報告鏈接：https://arxiv.org/abs/2509.17336）中系統(tǒng)闡述了其方法：模型的訓(xùn)練并不是基于單純的文本對話，而是在高保真的模擬電腦環(huán)境中反復(fù)嘗試與學(xué)習(xí)。可以理解為，Mano 被放進(jìn)了一個巨大的虛擬操作系統(tǒng)，在其中學(xué)習(xí)如何移動光標(biāo)、點擊按鈕、識別菜單、輸入數(shù)據(jù)，并通過反復(fù)試錯掌握任務(wù)完成的最佳路徑。

技術(shù)原理：讓模型在“真實環(huán)境”中學(xué)習(xí)

Mano 的訓(xùn)練框架包含三個階段：監(jiān)督微調(diào)（SFT）、離線強(qiáng)化學(xué)習(xí)（Offline RL）和在線強(qiáng)化學(xué)習(xí)（Online RL）。簡單來說，SFT 階段相當(dāng)于“老師教范例”，模型學(xué)習(xí)基礎(chǔ)操作方法；離線強(qiáng)化學(xué)習(xí)階段讓模型通過過去的任務(wù)經(jīng)驗學(xué)會“舉一反三”；而在線強(qiáng)化學(xué)習(xí)階段則是在真實環(huán)境中持續(xù)練習(xí)、發(fā)現(xiàn)新策略。

明略科技還引入了一個名為 “Think–Act–Verify” 的執(zhí)行閉環(huán)：模型在操作時，會先判斷當(dāng)前界面狀態(tài)（Think），再執(zhí)行具體動作（Act），最后驗證結(jié)果是否正確（Verify）。如果執(zhí)行出錯，模型會自動調(diào)整步驟重新嘗試。這讓 Mano 在面對復(fù)雜、多變的操作場景時，能夠?qū)崿F(xiàn)自我修正和容錯。

舉個通俗的例子：當(dāng)你讓智能體“下載一份財務(wù)報表”時，通用大模型可能只會給出一段操作說明，而 Mano 會真的打開瀏覽器、登錄賬戶、識別下載按鈕、選擇正確的日期范圍，并在出現(xiàn)錯誤提示時重新登錄、重試。這種能力的獲得，正是通過強(qiáng)化學(xué)習(xí)與高保真訓(xùn)練環(huán)境協(xié)同實現(xiàn)的。

根據(jù)論文數(shù)據(jù)，Mano 在加入在線強(qiáng)化學(xué)習(xí)后，模型平均任務(wù)完成率提升了約 14 個百分點，尤其在多步驟任務(wù)（multi-turn task）中表現(xiàn)穩(wěn)定。研究團(tuán)隊指出，這種“在環(huán)境中學(xué)習(xí)”的方式，是實現(xiàn)操作智能的關(guān)鍵：模型不再依賴靜態(tài)語料，而是通過持續(xù)交互獲得反饋，從而具備“學(xué)習(xí)如何行動”的能力。

專用智能體的競爭力

長期以來，大模型的性能評估主要集中在語言理解、知識問答或內(nèi)容生成任務(wù)上。而 GUI 智能體的出現(xiàn)，讓 AI 的邊界從“文字世界”延伸到了真實的操作系統(tǒng)中。與通用大模型相比，專用智能體的核心優(yōu)勢在于——它們不追求覆蓋所有知識，而是致力于在特定任務(wù)上實現(xiàn)更高的執(zhí)行深度與穩(wěn)定性。

Mano 的成績正是這一趨勢的體現(xiàn)。通過結(jié)構(gòu)化的任務(wù)數(shù)據(jù)、針對性的強(qiáng)化學(xué)習(xí)和驗證機(jī)制，模型在界面識別、動作規(guī)劃和過程穩(wěn)定性方面表現(xiàn)出了持續(xù)進(jìn)步。OSWorld 官方評述指出，這一成果“展示了專用智能體在真實任務(wù)執(zhí)行中的潛力，也標(biāo)志著多模態(tài)智能體研究的工程化進(jìn)展?！?/p>

對明略科技而言，Mano 不僅是一項研究成果，也正逐步成為企業(yè)智能系統(tǒng)的底層技術(shù)。公司正在探索如何將 Mano 的操作智能嵌入到數(shù)據(jù)分析、營銷自動化、合規(guī)管理等具體場景，使模型能在實際業(yè)務(wù)流程中承擔(dān)“數(shù)字助理”的角色。研究團(tuán)隊同時提到，未來的方向包括提升推理效率、減少交互步長，并推動端側(cè)輕量化部署，讓智能體在普通硬件環(huán)境中也能穩(wěn)定運行。

從 7B 到 72B，從 40.1% 到 54.0%，Mano 的進(jìn)化歷程不僅是一次參數(shù)增長，更是一種能力遷移——從語言理解到操作智能的跨越。明略科技技術(shù)團(tuán)隊在報告中表示，未來 Mano 將繼續(xù)優(yōu)化推理效率與任務(wù)泛化能力，并探索端側(cè)部署與行業(yè)級落地路徑，使智能體能力真正融入企業(yè)生產(chǎn)流程。當(dāng)模型不再只“輸出答案”，而是真正“完成任務(wù)”，人工智能才開始具備通往真實世界的執(zhí)行力。

報告鏈接：https://arxiv.org/abs/2509.17336

榜單鏈接：https://os-world.github.io/

推薦閱讀

京東科技泛零售行業(yè)方案負(fù)責(zé)人邵松：數(shù)智驅(qū)動，實現(xiàn)增長確定性的京東解法 | 2025營銷科學(xué)大會嘉賓分享

2025-12-11

近日，第九屆營銷科學(xué)大會在上海金茂·君悅大酒店圓滿舉行。本次大會以「Agentic Marketing·營銷可信智能體：要“增長確定性”」為主題，聚焦AI營銷從生成式向代理式演進(jìn)的新階段。大會聯(lián)合產(chǎn)業(yè)生態(tài)多方力量，以務(wù)實落地的案例與前瞻性的思考洞見為支點，全景呈現(xiàn)“Agentic Marketing”的實踐路徑與未來潛能。京東科技泛零售行業(yè)方案負(fù)責(zé)人邵松以《數(shù)智驅(qū)動：從市場不確定性到增長確定性的京東解法》為主題，展示了京東科技如何用數(shù)據(jù)、智能、科學(xué)方法，在不確定的市場中找到確定的增長路徑。以下為演講全文整理：

了解更多

ESOMAR’s AI 20 by AdEff

2025-12-10

ESOMAR’s AI 20 by AdEff

了解更多

小米互聯(lián)網(wǎng)業(yè)務(wù)部商業(yè)營銷品牌總經(jīng)理、智屏視界董事陳高銘：探索營銷的本質(zhì) | 2025營銷科學(xué)大會嘉賓分享

2025-12-10

在營銷浪潮不斷翻涌的今天，我們是否曾靜心思考：營銷的本質(zhì)究竟是什么？當(dāng)行業(yè)將絕大多數(shù)目光聚焦于移動端與短視頻時，家庭場景為何依然蘊藏著不可替代的獨特價值？智能大屏，又是憑借怎樣的底層邏輯，悄然成為品牌不可忽視的戰(zhàn)略新陣地？圍繞這些核心議題，小米互聯(lián)網(wǎng)業(yè)務(wù)部商業(yè)營銷品牌總經(jīng)理、智屏視界董事陳高銘帶來《探索·營銷的本質(zhì)》主題分享，與現(xiàn)場觀眾共同探尋大屏營銷的下一站未來。

了解更多

上一篇：2718.HK，明略科技股票代碼背后的含義

下一篇：明略科技亮相京港洽談會，簽約數(shù)碼港共拓AI新局

返回行業(yè)資訊

拉尾盘说明什么-股票app官网公司名称-【东方资本】,股票交易规则t 0代表什么,a股怎样会被st,涨8配资网站

從語言到行動：智能體的下一階段

技術(shù)原理：讓模型在“真實環(huán)境”中學(xué)習(xí)

專用智能體的競爭力