具身智能的任務(wù)和使命,就是如何解決讓當(dāng)前的人工智能,或者說當(dāng)前的智能,由弱智能變成強(qiáng)的智能。
本文為吳易明先生在2025西部產(chǎn)業(yè)科技大會發(fā)表的演講。
吳易明(西安中科光電精密工程有限公司董事長、總經(jīng)理):感謝觀點(diǎn)、感謝高新配套提供這個機(jī)會,讓我來分享“具身智能是智能科學(xué)的新范式”。
各位領(lǐng)導(dǎo)、各位嘉賓,下午好!我是吳易明,現(xiàn)在的身份是西安中科光電精密工程有限公司的董事長、總經(jīng)理。我在創(chuàng)業(yè)之前,1998年到2013年,一直在中科院西安光學(xué)精密機(jī)械研究所工作,2013年開始創(chuàng)業(yè),這個公司做了12年,具身智能機(jī)器人的研發(fā)做了9年。
我的報(bào)告分為5個方面,要在15分鐘內(nèi)表達(dá)清楚我的觀點(diǎn)還是有點(diǎn)困難,我爭取講得更通俗、更簡單些。
具身智能當(dāng)前的發(fā)展態(tài)勢。首先回顧一下,我們公司是2019年獲得關(guān)鍵性的突破,到2021年我在人社部跟中國工程物理研究院舉辦的高級研修班上講課的時候提到,具身智能是智能科學(xué)的新范式,2022年我們注冊了“具身智能”的商標(biāo)。2023年,英偉達(dá)的黃仁勛提出了AI的下一個浪潮是具身智能,引發(fā)了全球的關(guān)注,今年政府工作報(bào)告正式把具身智能作為一個新的發(fā)展方向。
(見PPT)這是當(dāng)前典型的觀點(diǎn),大家通常會解讀為“大模型+機(jī)器人”,或者大模型訓(xùn)練機(jī)器人,我在今天的報(bào)告廳外面看到一個機(jī)器人,它可能也是這種思路。另外一種觀點(diǎn)就是解讀為人形機(jī)器人裝上智能的腦袋,大家默認(rèn)一個關(guān)鍵的思路,就是當(dāng)前的大模型可能已經(jīng)解決了智能的根本問題,這個解讀實(shí)際上是有點(diǎn)不對的。
我們對具身智能的觀點(diǎn)相對來說跟現(xiàn)在主流的或者學(xué)術(shù)界的解讀不太一樣,后續(xù)的解讀有些地方我會講得細(xì)一點(diǎn),有些地方會快速略過。
當(dāng)前看到人形機(jī)器人的表演和各種運(yùn)動的展示,有一個非常著名的公司就是波士頓動力,它從大概2012年到現(xiàn)在,每半年就出來表演一次,但是目前波士頓動力的發(fā)展路徑,已經(jīng)被一些國內(nèi)的公司掩蓋了。從運(yùn)動的控制能力,以及已經(jīng)獲得的效果來看,波士頓動力在歷史上取得的成績還是值得稱贊的。
當(dāng)前投資界和學(xué)術(shù)界已經(jīng)意識到具身智能的一些思路和方法可能有問題。(見PPT)這是比較著名的三位人士的觀點(diǎn),一位是現(xiàn)在非?;鸬挠顦淇萍嫉膭?chuàng)始人,他分享的關(guān)于具身智能當(dāng)前發(fā)展態(tài)勢的觀點(diǎn),他認(rèn)為3到5年內(nèi)是很難家用的,這跟我前幾年判斷具身智能的技術(shù)架構(gòu)發(fā)展節(jié)奏是有點(diǎn)像的,但是我們已經(jīng)突破了具身智能最本質(zhì)的東西,只是太抽象了,傳播力沒那么好。
目前大家對世界模型的理解還是一個廣義世界模型。我在這幾年的研究當(dāng)中,我對這個模型的理解,一個機(jī)器人能夠自主作業(yè),最基本的模型是我們可以感知小世界模型,我們當(dāng)前感知到的空間,我們聽到的聲音,能夠感受到大家的表情等等,這是世界模型的一個最基本的方式。但是現(xiàn)在大家講世界模型的時候,對這個概念不是太準(zhǔn)。
楊立昆講世界模型,他也意識到當(dāng)前的大模型、具身智能,實(shí)際上最重要的不是運(yùn)動能力,是智能沒有突破,沒有突破的情況下就很難讓機(jī)器人自主作業(yè),就更談不上讓機(jī)器人進(jìn)入家庭、進(jìn)入工廠,來自主地完成非確定情況下的任務(wù)。

簡單總結(jié)一下目前的訓(xùn)練模式,就是大模型訓(xùn)練機(jī)器人,一般有這么幾種模式,但是它都是靠數(shù)據(jù)標(biāo)注,大量的數(shù)據(jù)、大量的算力,以及人為的標(biāo)注,它是一種窮舉法,這個方法思路上是跟人類理解世界的方式不一樣的,所以現(xiàn)在是非常耗能、非常耗數(shù)據(jù)的,數(shù)據(jù)枯竭之后就沒法繼續(xù)發(fā)展。
具身智能的任務(wù)和使命,就是如何解決讓當(dāng)前的人工智能,或者說當(dāng)前的智能,由弱智能變成強(qiáng)的智能。它有4個關(guān)鍵的問題,首先是理解四維時空,第二是自主推理、規(guī)劃及行動,第三是語言理解及工具運(yùn)用,語言和我們?nèi)粘J褂玫墓ぞ呤堑葍r的,這是我這么幾年研究的主要成果,第四是交互促進(jìn)涌現(xiàn)及智能的自增長?,F(xiàn)在只要是能實(shí)現(xiàn)前三條,我們的機(jī)器人替代所有物理世界的勞動是一個必然的趨勢。第四條實(shí)現(xiàn)之后會引發(fā)社會危機(jī),我們認(rèn)為這個事情要先擱置起來。
具身智能是科學(xué)智能的新范式,首先要回顧智能的概念,按照我們對智能的研究,我們說一個主體是智能的,可以簡單地理解為它是懂科學(xué)的,就是它能夠有效地發(fā)現(xiàn)規(guī)律、運(yùn)用規(guī)律、提升和改進(jìn)規(guī)律。
所有科學(xué)家做具身智能的研究,都躲不開具身認(rèn)知,對具身智能概念的給出,首先就是要回顧具身認(rèn)知,它是認(rèn)知科學(xué)和心理學(xué)一個重要的領(lǐng)域,它是研究生理體驗(yàn)與心理狀態(tài)之間的關(guān)系,我們在看到一個世界的時候,大腦到底是哪些神經(jīng)原被激活了,它就是研究這個問題的,所以具身的概念不是胳膊和腿,這一塊是要按照我們的觀點(diǎn)做一個校正的,起源于哲學(xué)領(lǐng)域?qū)ι硇亩摰呐蟹此?,后續(xù)逐漸轉(zhuǎn)向?qū)嵶C科學(xué)研究,并擴(kuò)展到心理學(xué)、教育學(xué)、人工智能等領(lǐng)域。
在20世紀(jì)具身認(rèn)知的理論發(fā)展是很快的,特別是在教育領(lǐng)域,對小孩的教育研究是比較多的,但是怎么應(yīng)用到具身智能的研究領(lǐng)域,現(xiàn)在只是模仿了一個皮毛,我們基于對具身認(rèn)知底層的研究,形成我們的一些基礎(chǔ)的方法。所以我們給出具身智能的定義,智能是主語,具身是方法,就是以具身認(rèn)知為指導(dǎo)的人工智能,體現(xiàn)哲學(xué)一元認(rèn)知的思想。
這個概念比較拗口,可以按照孫子兵法上的觀點(diǎn)理解,我們?nèi)嗽谡J(rèn)知世界的時候,可以把感知的主體、對象,以及我們自身主體和環(huán)境都納入思考范圍,構(gòu)建一個模型。我們睜開眼,是基于我們的眼睛和大腦,構(gòu)建了一個具身世界模型,基于這個模型的推演和各種對象的交互作用,以及發(fā)展演化趨勢,形成了一種解決問題的方法。
所以具身智能的一個基礎(chǔ)性的方法是建構(gòu)性的,實(shí)際上是我們構(gòu)建了一個模型,類似于打仗的時候做了一個兵棋推演,直接推演出來應(yīng)該怎么做,這個推演不好,我們再重構(gòu)各個要素,再得到一個我們想要的結(jié)果。
(見PPT)這是具身智能的基本模型,是我去年提出的框架。具身智能基本模型要解決的核心問題就是左邊的兩個箭頭,我們看到的世界,我們看到屏幕、桌子、杯子,給出這個對象一個命名,然后對象的命名跟對象之間的關(guān)系問題,就是指稱問題,讓一個人造的智能主體能夠像人一樣,解決名詞的命名,以及基于名詞尋找物理對象的過程,就是人工智能要解決的核心問題。當(dāng)前大數(shù)據(jù)、大模型主要用的是訓(xùn)練的方式,我一直在批判這個方式。
具身智能的范式和原有人工智能方法的范式差異,這也是比較抽象的,我就給大家展示一下,最主要是強(qiáng)調(diào)我們的大腦,它是一個信息物理系統(tǒng),對我們感知到的直觀的物理世界,要有一種同構(gòu)性,如果沒有這個同構(gòu)性,我們很難解決問題。就是說二維的方法很難解決三維的問題,但是三維的方法能解決二維的問題,這就是同構(gòu)性,這是一個主要的思路。
我們公司在最近8年左右研發(fā)的過程中,突破的數(shù)學(xué)方法,其實(shí)是來源于我們在2016年的時候拿到了科技部重大專項(xiàng)的支持,這個專項(xiàng)支持我們當(dāng)時求助于深度學(xué)習(xí)的方式,來解決在加工過程中任意立體對象精準(zhǔn)識別的時候,我們發(fā)現(xiàn)深度學(xué)習(xí)的方式?jīng)]法解決,所以我就想到數(shù)學(xué),大概通過3年左右的數(shù)學(xué)方法推導(dǎo),到2019年左右解決了問題,實(shí)際上解決的問題是一個比較學(xué)術(shù)化的表述,就是對任意立體對象的數(shù)學(xué)表征。
我們看到的物理世界,我們到底記住了什么,應(yīng)該怎么樣表征,這個過程我們借鑒了中國漢字誕生和演化的歷史,漢字的底層是名詞,名詞的前身是巖畫,巖畫是人感知到世界之后,信息抽象和形成一種信息的卸載,就是從我們的大腦里面卸載到物理空間的一種人為的記錄,后續(xù)產(chǎn)生了名詞、動詞等等,這個過程我們用數(shù)學(xué)的方法實(shí)現(xiàn)了,同時這個方法對數(shù)據(jù)的需求量非常小,基本上是數(shù)據(jù)壓縮10的七次方的數(shù)量級。這就是這個方法的一個簡要的過程。幾個數(shù)學(xué)工具就是微分、幾何、群論、拓?fù)涞鹊龋@都是20世紀(jì)發(fā)展出來的數(shù)學(xué)。
這里面強(qiáng)調(diào)認(rèn)知上的突破,就是空間等價性,我看到的世界和我移動、感知到的世界是等價的。另外要解決一個問題,我們什么時候用邏輯判斷,什么時候用概率判斷,這是兩個很抽象的問題。在這個認(rèn)知的指導(dǎo)下,我們突破了一系列的技術(shù),前兩個是底層的技術(shù)突破,我們讓機(jī)器人在空間里自主地尋位,其實(shí)是一個無人駕駛技術(shù),只不過是我們現(xiàn)在沒有往這邊做產(chǎn)業(yè)的介入。
(見PPT)這是我們的產(chǎn)品,我們對外可以宣傳的產(chǎn)品主要是智能焊接機(jī)器人。其實(shí)我們?nèi)ツ旰徒衲曛饕臉I(yè)務(wù)還是涉軍和涉密的任務(wù)。
我們已經(jīng)解決的問題,在當(dāng)前人工智能研究領(lǐng)域的地位,簡單來說,就是大模型解決了語言的對話問題,運(yùn)動執(zhí)行這一塊有一些機(jī)器人公司已經(jīng)解決了,我們就是解決讓機(jī)器人怎么樣自主理解,自主作業(yè)和自主決策的過程,所以識別和規(guī)劃的問題是我們解決的核心問題。
這個問題在學(xué)術(shù)領(lǐng)域來說,采用的方法是符號接地。我們說的所有的話都可以理解為一種符號,這個符號如果不能夠落在物理世界,它就是懸空的。現(xiàn)在我們說大模型會出現(xiàn)幻覺,實(shí)際上是因?yàn)樗荒苡行У亟拥亍?/p>
我們一般說一個方法的時候,我們講實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)。怎么樣轉(zhuǎn)回來?實(shí)踐和理論循環(huán)這個路是怎么打通的?這個方法跟當(dāng)前的方法的區(qū)別是,我們是數(shù)學(xué)的方法,我們把思路調(diào)整過來了,可能會用到一些數(shù)據(jù)訓(xùn)練,但是對數(shù)據(jù)訓(xùn)練的依賴度不高,我們也嫁接了一些訓(xùn)練的成果,這是我們在后面做產(chǎn)業(yè)的時候要做的事情。
應(yīng)用方面,我們現(xiàn)在解決的問題,類比于人類的邏輯架構(gòu)是對應(yīng)的,就是眼睛指揮手來干活,或者是眼睛指揮自主的移動,這也是我們已經(jīng)解決的問題。
工業(yè)領(lǐng)域,所有的當(dāng)前不適合自動化線生產(chǎn)的,潛在都是可以解決的。我們的核心的應(yīng)用是視覺智能。
(見PPT)這是一些其他領(lǐng)域的應(yīng)用,工業(yè)智能是一個非常大的領(lǐng)域。
具身智能的發(fā)展,按照我們對這個事情的判斷,10年之內(nèi)機(jī)器人會普及到千家萬戶,這是我在2021年做的一個預(yù)測。現(xiàn)在我們做的是外觀像機(jī)器一樣的機(jī)器人,其實(shí)我們已經(jīng)開始布局人形機(jī)器人,以前做的主要是智能的部分,現(xiàn)在要做產(chǎn)品落地的成分,就是把別人已經(jīng)做好的人形機(jī)器人拿過來,我們賦能它的智能的能力。
(見PPT)這是對未來的預(yù)測。
我的匯報(bào)就到這里,謝謝大家。
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)由觀點(diǎn)根據(jù)公開信息整理,不構(gòu)成投資建議,使用前請核實(shí)。
撰文:吳易明
審校:勞蓉蓉
