拉尾盘说明什么-股票app官网公司名称-【东方资本】,股票交易规则t 0代表什么,a股怎样会被st,涨8配资网站

EN

明略科技吳明輝:通用Benchmark就像學(xué)科考試,每個(gè)領(lǐng)域要有自己的評(píng)估體系

2025-09-22

9月16日,2025騰訊全球數(shù)字生態(tài)大會(huì)盛大啟幕。本屆大會(huì)以“智·向遠(yuǎn)大”為主題,聚焦全球科技、產(chǎn)業(yè)發(fā)展新趨勢(shì),探討如何以自主創(chuàng)新技術(shù),助力千行百業(yè)深挖智能化、國(guó)際化新機(jī)遇,以高效數(shù)字化推動(dòng)產(chǎn)業(yè)升級(jí)與可持續(xù)發(fā)展。

作為企業(yè)級(jí)大模型與智能體賽道的領(lǐng)先者,明略科技創(chuàng)始人、CEO兼CTO吳明輝受邀出席“互聯(lián)網(wǎng)AI應(yīng)用”專場(chǎng),發(fā)表《多模態(tài)大模型在營(yíng)銷場(chǎng)景的落地實(shí)踐》主題演講,分享明略科技AI前沿成果與落地實(shí)踐。

以下為演講全文:

明略科技吳明輝:通用Benchmark就像學(xué)科考試,每個(gè)領(lǐng)域要有自己的評(píng)估體系
明略科技創(chuàng)始人、CEO兼CTO  吳明輝

各位現(xiàn)場(chǎng)的朋友們,大家好!

想必大家對(duì)明略并不陌生,過(guò)去我們?cè)诖髷?shù)據(jù)領(lǐng)域深耕多年,與騰訊等企業(yè)也有著緊密的合作。近幾年,我們開(kāi)始聚焦企業(yè)級(jí)大模型與智能體,而我本人碩博階段的研究方向也是 AI 領(lǐng)域,所以今天很高興能和大家分享我們明略在 AI 賽道上的探索。

在分享具體工作前,我想先和大家探討一個(gè)關(guān)鍵話題 ——benchmark。我認(rèn)為,未來(lái)無(wú)論是 AI 企業(yè),還是各個(gè)細(xì)分行業(yè)的企業(yè),都必須重視 benchmark,但我們關(guān)注的不應(yīng)是通用基準(zhǔn)測(cè)試,真正有價(jià)值的是針對(duì)具體細(xì)分場(chǎng)景的 benchmark。如果一家企業(yè)連自己獨(dú)有的 benchmark 都沒(méi)有,坦白說(shuō),不僅未來(lái)可能在科技行業(yè)中被淘汰,甚至都無(wú)法稱之為一家真正的科技公司。

我讀碩士時(shí)主攻計(jì)算機(jī)視覺(jué)(CV),研究方向包括指紋掌紋識(shí)別、文檔識(shí)別。前陣子我偶然發(fā)現(xiàn),我家小朋友在中學(xué) AI 課程上做的項(xiàng)目,竟然已經(jīng)能完成我當(dāng)年碩士階段的研究工作。這也讓我意識(shí)到,如今從事 IT 和技術(shù)領(lǐng)域的我們,面臨著巨大的壓力。普通代碼的價(jià)值正在大幅降低,無(wú)論是基礎(chǔ)類代碼,還是我們之前討論的各類業(yè)務(wù)代碼,AI 都能高效完成。那么,我們真正的核心競(jìng)爭(zhēng)力在哪里?我認(rèn)為,最重要的是要有屬于自己的獨(dú)特技術(shù)體系和差異化優(yōu)勢(shì)。

2024年,我?guī)ьI(lǐng)團(tuán)隊(duì)在澳大利亞墨爾本參加全球頂會(huì)ACMMM,當(dāng)時(shí)大會(huì)首場(chǎng)主題演講的嘉賓是香港科技大學(xué)的一位教授,他在總結(jié)智能體未來(lái)發(fā)展趨勢(shì)時(shí)提到,無(wú)論是智能體還是 AI 模型,處理的任務(wù)都可以分為兩類:客觀感知(objective perception)和主觀感知(subjective perception)。

什么是 “主觀”,什么是 “客觀”?這背后涉及一個(gè)哲學(xué)問(wèn)題。從 benchmark 的角度出發(fā),我們可以結(jié)合實(shí)際業(yè)務(wù)場(chǎng)景來(lái)分析。我們明略為企業(yè)客戶做廣告輿情分析,而輿情分析的核心環(huán)節(jié)之一就是情感分析 —— 判斷一篇文章、一個(gè)視頻中傳遞的情感是正面還是負(fù)面。過(guò)去,很多全球人工智能峰會(huì)都會(huì)舉辦情感分析競(jìng)賽。表面上看,情感分析是典型的 “主觀任務(wù)”,但后來(lái)我們發(fā)現(xiàn),大部分情感分析競(jìng)賽的 benchmark 設(shè)計(jì),存在明顯問(wèn)題:雖然是主觀任務(wù),卻采用了客觀的評(píng)估方式。這類 benchmark 通常是讓標(biāo)注人員判斷每個(gè)內(nèi)容的情感傾向(正面 / 負(fù)面),之后讓 AI 模型的分析結(jié)果與人工標(biāo)注結(jié)果進(jìn)行比對(duì),最終得出一個(gè)評(píng)測(cè)指標(biāo),并將其稱之為 “主觀分?jǐn)?shù)”。

然而,從哲學(xué)層面講,“主觀” 的核心在于,不同人對(duì)同一件事可能持有不同觀點(diǎn)。如果所有人都遵循統(tǒng)一標(biāo)準(zhǔn),那本質(zhì)上就是 “客觀” 評(píng)估。因此,當(dāng)時(shí)市場(chǎng)上并不存在真正意義上的 “主觀情感分析 benchmark”,所有情感分析評(píng)測(cè)本質(zhì)上都是客觀評(píng)估 —— 因?yàn)槎际腔诮y(tǒng)一的 “標(biāo)準(zhǔn)答案”。

斯坦福大學(xué)李飛飛教授曾經(jīng)提到,無(wú)論 AI 模型經(jīng)過(guò)多少輪訓(xùn)練,目前仍無(wú)法像人類一樣,具備真正意義上的主觀情感理解能力。

如何評(píng)估“主觀” ,這確實(shí)是一個(gè)值得深入探討的問(wèn)題。當(dāng)我們?cè)?ACMMM 2024 分享論文時(shí),充分表明了決心:我們要構(gòu)建一個(gè)新的 benchmark。

明略科技吳明輝:通用Benchmark就像學(xué)科考試,每個(gè)領(lǐng)域要有自己的評(píng)估體系
明略科技研究成果在ACMMM2024會(huì)議現(xiàn)場(chǎng)榮獲最佳論文提名獎(jiǎng)

我們?yōu)槭裁匆ňψ鲞@件事情?核心原因是我們想解決廣告營(yíng)銷行業(yè)的實(shí)際痛點(diǎn) —— 廣告內(nèi)容測(cè)試。大家可以回想一下,我們每天在視頻號(hào)、抖音等平臺(tái)會(huì)看到大量廣告,既有圖文形式,也有視頻形式。對(duì)于廣告客戶來(lái)說(shuō),投放一支廣告的成本極高。除了拍攝廣告片需要投入大量資金,后續(xù)在各大媒體平臺(tái)購(gòu)買流量的費(fèi)用更是遠(yuǎn)超拍攝成本。因此,在廣告正式投放前,客戶必須先測(cè)試廣告片的效果。判斷廣告是否能吸引潛在消費(fèi)者、是否能打動(dòng)目標(biāo)人群。

過(guò)去,廣告測(cè)試的方法非常傳統(tǒng),我們會(huì)把消費(fèi)者請(qǐng)到實(shí)驗(yàn)室觀看廣告,之后讓他們填寫(xiě)問(wèn)卷,根據(jù)問(wèn)卷結(jié)果決定是否修改廣告或直接投放。后來(lái),測(cè)試方法升級(jí)為消費(fèi)者佩戴可穿戴設(shè)備,我們通過(guò)捕捉腦電、眼動(dòng)等信號(hào),分析消費(fèi)者觀看視頻廣告時(shí)的情感變化。在這一過(guò)程中,我們積累了大量廣告片的測(cè)試信號(hào)數(shù)據(jù),而這些信號(hào)正是 “主觀性” 的最佳體現(xiàn)。因?yàn)槊總€(gè)人的信號(hào)都不同,完全不存在統(tǒng)一標(biāo)準(zhǔn)。

大模型崛起后,通過(guò)把這些腦電、眼動(dòng)信號(hào)與基礎(chǔ)大模型相結(jié)合,我們訓(xùn)練出一個(gè)多模態(tài)的專業(yè)領(lǐng)域?qū)<夷P停╯pecialize model)。在模型訓(xùn)練過(guò)程中,我們采用了一種特殊的網(wǎng)絡(luò)結(jié)構(gòu) —— 超圖(hypergraph),這種結(jié)構(gòu)與傳統(tǒng)圖論中的圖形結(jié)構(gòu)不同,它能高效存儲(chǔ)廣告播放過(guò)程中各個(gè)視頻片段之間的相似度,最終通過(guò)超圖清晰地呈現(xiàn)出視頻的故事線和情節(jié)結(jié)構(gòu)。通過(guò)超圖進(jìn)行訓(xùn)練,不僅效果好,而且訓(xùn)練與計(jì)算成本遠(yuǎn)低于 Transformer。這項(xiàng)超圖多模態(tài)大模型研究成果最終獲得了ACMMM2024最佳論文提名。

明略科技吳明輝:通用Benchmark就像學(xué)科考試,每個(gè)領(lǐng)域要有自己的評(píng)估體系

目前,基于我們自研的超圖多模態(tài)大模型的產(chǎn)品——全球廣告創(chuàng)意優(yōu)化與測(cè)試平臺(tái) AdEff 已經(jīng)正式上線。這是一款面向全球市場(chǎng)的 SaaS 產(chǎn)品,核心功能是可以測(cè)試同一支廣告片在不同人群中產(chǎn)生的情感反應(yīng)差異,這對(duì)出海企業(yè)意義重大。

明略科技吳明輝:通用Benchmark就像學(xué)科考試,每個(gè)領(lǐng)域要有自己的評(píng)估體系

現(xiàn)在很多中國(guó)品牌都在拓展海外市場(chǎng),但不同國(guó)家、不同文化背景的消費(fèi)者,對(duì)廣告內(nèi)容的理解和接受度完全不同。在成本上,過(guò)去,在一個(gè)市場(chǎng)測(cè)試一支廣告片的成本大概需要 1 萬(wàn)美元,現(xiàn)在,大模型將測(cè)試成本大幅壓縮。對(duì)企業(yè)來(lái)說(shuō),成本降低意味著他們可以進(jìn)行更多的嘗試。現(xiàn)在很多客戶的廣告片已經(jīng)不是由廣告公司拍攝,而是用 AI 生成,生成后通過(guò)我們的產(chǎn)品快速測(cè)試,就能避免因廣告效果不佳導(dǎo)致的流量費(fèi)用浪費(fèi)。

更有意思的是,當(dāng)企業(yè)測(cè)試完廣告片后,還能與大模型進(jìn)行交互。比如,在廣告播放的第 3 秒到第 5 秒,消費(fèi)者為什么會(huì)感到興奮?大模型互動(dòng)的邏輯其實(shí)正是動(dòng)態(tài)推理,它可以用自然語(yǔ)言解釋信號(hào)升高的原因,分析對(duì)應(yīng)用戶群體的想法。如果某個(gè)片段的廣告效果不好,大模型還能站在廣告拍攝專家的視角,給出具體的優(yōu)化建議,這對(duì)客戶的吸引力很大。因?yàn)檫^(guò)去邀請(qǐng)消費(fèi)者到實(shí)驗(yàn)室測(cè)試廣告,測(cè)試結(jié)束后消費(fèi)者就離開(kāi)了。當(dāng)廣告主后續(xù)想深入了解 “當(dāng)時(shí)消費(fèi)者為什么會(huì)興奮” 時(shí),已經(jīng)無(wú)法再聯(lián)系到受訪者。但現(xiàn)在,客戶隨時(shí)能與模型交互,挖掘背后的深層原因。

我們最近推出的另一款智能體 ——妙啊,聚焦爆款投流素材內(nèi)容生成場(chǎng)景。當(dāng)前短視頻營(yíng)銷競(jìng)爭(zhēng)激烈,很多企業(yè)過(guò)去一年才發(fā)布幾十個(gè)廣告,現(xiàn)在一天就要上線幾百個(gè)廣告,否則很難在社媒平臺(tái)獲得足夠流量。然而,很多企業(yè)用大模型制作廣告,但最大的痛點(diǎn)是不知道該寫(xiě)什么 prompt,不知道如何設(shè)計(jì)劇情腳本。我們的“妙啊”可以幫助大家解決這個(gè)問(wèn)題。

了解「妙啊」???? http://www.qududu.org/news/6128/

通過(guò)超圖多模態(tài)大模型,先從全網(wǎng)搜集海量廣告素材,再通過(guò)模型拆解素材中的 “爆款片段”,之后將優(yōu)質(zhì)片段輸入到 “故事腳本生成模型” 中。因?yàn)槲覀円呀?jīng)預(yù)先解析了真正吸引消費(fèi)者的內(nèi)容素材,提煉出有效的腳本邏輯,所以真正挖掘出了消費(fèi)者感興趣的內(nèi)容,同時(shí)縮短了 “廣告創(chuàng)意” 到 “成片投放” 的周期。

總的來(lái)說(shuō),我認(rèn)為,一方面,垂直領(lǐng)域有大量未被挖掘的AI應(yīng)用場(chǎng)景,未來(lái)模型層必然是 “百家爭(zhēng)鳴” 的格局,絕非只有基礎(chǔ)模型公司。每個(gè)領(lǐng)域的模型都應(yīng)該具備獨(dú)特性,關(guān)鍵在于要有自己“獨(dú)特的 benchmark”。對(duì)企業(yè)來(lái)說(shuō),通用 benchmark 就像基礎(chǔ)學(xué)科考試,判斷模型是否具備實(shí)戰(zhàn)能力,看的是每個(gè)行業(yè)獨(dú)有的評(píng)估體系。

另一方面,AI 的優(yōu)化不應(yīng)僅局限于模型層面,未來(lái)還將延伸到智能體,甚至多智能體層面。多個(gè)智能體組成混合智能體,進(jìn)行互相博弈,最終形成端到端的優(yōu)化。

我們今年的重點(diǎn)工作之一是將模型推向全球市場(chǎng)。聚焦15個(gè)重點(diǎn)海外市場(chǎng),深化模型訓(xùn)練,將企業(yè)客戶從中國(guó)出海企業(yè)拓展至海外市場(chǎng)的本土企業(yè)。同時(shí),我們將推動(dòng)構(gòu)建一個(gè)覆蓋全球各個(gè)國(guó)家與地區(qū)的廣告素材庫(kù),并與當(dāng)?shù)貜V告學(xué)院、廣告評(píng)審專家合作,將專業(yè)反饋通過(guò) RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))的方式融入到模型訓(xùn)練中。

目前,無(wú)論是做品牌廣告測(cè)試,還是效果廣告的內(nèi)容生成,我們都?xì)g迎大家體驗(yàn)我們明略的產(chǎn)品,我們也將通過(guò)持續(xù)的技術(shù)創(chuàng)新,幫助企業(yè)創(chuàng)造更大價(jià)值。

謝謝大家!

信息填寫(xiě)

*手機(jī)號(hào)碼:

請(qǐng)選協(xié)議