剛剛離開實(shí)驗(yàn)室的機(jī)器人,想要在實(shí)際的場(chǎng)景中創(chuàng)造效益,需要多久? 近日,具身智能初創(chuàng)企業(yè)靈初智能發(fā)布了Psi-R1大模型,并稱搭載了這個(gè)“真正的VLA模型(Vision-Language-Action,視覺語言動(dòng)作模型)”的機(jī)器人,能夠在開放場(chǎng)景下解決長(zhǎng)程復(fù)雜任務(wù)。作為當(dāng)前具身智能領(lǐng)域的技術(shù)突破看點(diǎn),處在發(fā)展早期的VLA模型已然成為了各家機(jī)器人廠商秀技術(shù)的標(biāo)的。第一財(cái)經(jīng)記者梳理發(fā)現(xiàn),2025年以來,至少有七家企業(yè)都發(fā)布了VLA相關(guān)的模型,其中包括Physical Intelligence、英偉達(dá)、銀河通用等。 另一邊,具身大模型的發(fā)展,也讓機(jī)器人在落地上找到了更多機(jī)會(huì)。截至目前,F(xiàn)igure 、開普勒、優(yōu)必選、樂聚等多家機(jī)器人廠商也都已經(jīng)宣布旗下機(jī)器人“進(jìn)廠打工”。不過,第一財(cái)經(jīng)記者了解到,從實(shí)驗(yàn)室到“進(jìn)廠”,人形機(jī)器人想要在泛工業(yè)、零售場(chǎng)景“上工”,還需要走過漫長(zhǎng)的概念驗(yàn)證階段,如今的人形機(jī)器人大部分還處在“試用期”。 相比拍出一段酷炫的打工視頻,概念驗(yàn)證階段需要證明產(chǎn)品——也就是人形機(jī)器人的技術(shù)成功率、可靠性、效率、成本和收益,這些數(shù)據(jù)橫亙?cè)谌诵螜C(jī)器人技術(shù)突破與商業(yè)化落地之間,是每一家想要實(shí)現(xiàn)落地的人形機(jī)器人企業(yè)都必須啃的“硬骨頭”。 動(dòng)作信號(hào)輸入成VLA模型難點(diǎn) “碰!”“吃!”“杠上開花!” 第一財(cái)經(jīng)記者看到,在靈初智能發(fā)布的視頻中,搭載了Psi-R1模型的機(jī)器人PsiBot V1,能夠在開放環(huán)境中和人類同伴打麻將。從洗牌、拿牌、翻牌到打牌,PsiBot V1看到“麻友”打牌的動(dòng)作、打出的花色,聽到“麻友”的指令之后,打出自己的下一張牌。 盡管人類能夠在熟知打麻將的規(guī)則之后,在一次次判斷中準(zhǔn)確地打出一張牌,但對(duì)于機(jī)器人來說,拆解打麻將的每一個(gè)動(dòng)作,并穩(wěn)定地進(jìn)行輸出,都是一個(gè)復(fù)雜的工程。 作為一家重點(diǎn)攻克具身大模型和靈巧手操作的企業(yè),打麻將是靈初智能有意挑選的展示場(chǎng)景。在這個(gè)場(chǎng)景中,機(jī)器人首先需要通過自身的視覺、聽覺、觸覺等傳感器獲取牌面圖像信息,并實(shí)時(shí)接收包括音頻、動(dòng)作等輸入信息,以推斷出一個(gè)出牌策略,并進(jìn)行決策操作。 相比于大部分VLA模型只能聽從語音、圖片等指令,將動(dòng)作進(jìn)行輸出,R1將人類“麻友”打牌的動(dòng)作也作為了輸入端的信號(hào)。 在小紅書上,記者看到了一位博主曬出的一段視頻,博主將頭部品牌的機(jī)器人帶入家中,并通過語音的方式向機(jī)器人下達(dá)了“做家務(wù)”的指令。然而,這個(gè)機(jī)器人卻在握住掃把后,機(jī)械地清理同一塊地面。機(jī)器人僅僅做到了語音跟隨,無法進(jìn)行實(shí)際的工作。 “本質(zhì)上來說,對(duì)于搭載了這類模型的機(jī)器人而言,機(jī)器人大腦在進(jìn)行規(guī)劃的時(shí)候,模型所依據(jù)的只有眼睛看到的視覺信息、聽到的語言信息,以及機(jī)器人的一些關(guān)節(jié)狀態(tài)信息?!膘`初智能創(chuàng)始人王啟斌向記者解釋,當(dāng)動(dòng)作不作為大腦規(guī)劃的輸入,就有可能出現(xiàn)上述狀況?!皠?dòng)作沒有作為大腦規(guī)劃的輸入,意味著機(jī)器人大腦并不知道動(dòng)作執(zhí)行的具體情況,它仍然按照原來基于視覺和語言信息規(guī)劃的路徑和動(dòng)作序列繼續(xù)執(zhí)行,因此會(huì)產(chǎn)生偏差。” 動(dòng)作信號(hào)的缺失,導(dǎo)致了部分VLA模型缺乏泛化性,也影響了機(jī)器人長(zhǎng)線推理能力的準(zhǔn)確性。在家庭場(chǎng)景,也許這種缺失只是造成打碎一個(gè)杯子、地面不整潔的后果,但如果是商超,工業(yè)場(chǎng)景呢? “因此我們認(rèn)為只有將動(dòng)作作為輸入,參與規(guī)劃層推理,才能在非結(jié)構(gòu)化的場(chǎng)景真正實(shí)現(xiàn)工程化的落地。”王啟斌說。 今年以來,中國和海外的多家機(jī)器人企業(yè)都開始發(fā)力VLA模型。今年年初,銀河通用發(fā)布了完全基于仿真合成大數(shù)據(jù)訓(xùn)練出來的大模型GraspVLA;2月,F(xiàn)igure發(fā)布了自研的VLA模型“Helix”;英偉達(dá)也在在2025 GTC大會(huì)上發(fā)布了VLA模型Isaac GR00T N1;Physical Intelligence也在4月下旬發(fā)布了新的VLA模型π0.5。 在視頻里,這些搭載了VLA模型的機(jī)器人們或能夠進(jìn)行簡(jiǎn)單操作,或能夠展示雙機(jī)器人協(xié)作的能力。“很多視頻里展現(xiàn)的機(jī)器人操作,其實(shí)用簡(jiǎn)單的模仿學(xué)習(xí)加原子技能調(diào)用就可以完成,體現(xiàn)不出VLA模型的自主推理能力?!币晃粐鴥?nèi)具身大模型企業(yè)高層向第一財(cái)經(jīng)記者解釋,VLA是當(dāng)前具身智能技術(shù)突破的重要標(biāo)志,也是機(jī)器人公司想要融資、曝光度、體現(xiàn)自身的先進(jìn)性的手段,“有一個(gè)好的名字,好的展示視頻很重要”。 亂花漸欲迷人眼,蒙太奇手法讓真實(shí)的技術(shù)隱在了VLA的殼子里。 “真正的VLA需要具備幾個(gè)特點(diǎn),搭載VLA模型的機(jī)器人需要有長(zhǎng)時(shí)序的動(dòng)作執(zhí)行能力,能跟隨帶有描述性的語言指令,并且這些都由同一個(gè)模型直出完成所有任務(wù),而非靠多個(gè)模型?!毙呛D聯(lián)合創(chuàng)始人、清華大學(xué)交叉信息研究院助理教授許華哲向第一財(cái)經(jīng)記者解釋道。 “轉(zhuǎn)正”還需要多久? 機(jī)器人想要進(jìn)廠打工,一步到位難于登天。 已經(jīng)宣布在寶馬“上工”的美國機(jī)器人初創(chuàng)公司Figure,近期就陷入了“造假”爭(zhēng)議。在此前公布的視頻中,F(xiàn)igure向外界展示了多臺(tái)機(jī)器人在寶馬工廠中作業(yè)的場(chǎng)景。但寶馬方面的發(fā)言人Steve Wilson卻指出,實(shí)際狀況是“任何時(shí)候都只有一臺(tái) Figure 機(jī)器人”執(zhí)行任務(wù)。他還表示,截至今年三月,F(xiàn)igure的人形機(jī)器人只在非生產(chǎn)時(shí)段進(jìn)行簡(jiǎn)單的零件搬運(yùn)訓(xùn)練,主要承擔(dān)的工作是零件拿放工作。 在大部分機(jī)器人廠商秀出的打工視頻里,人形機(jī)器人看上去是那么智能、流暢、高效。但企業(yè)的鏡頭之后,如何將機(jī)器人的算法與硬件耦合,如何確保精準(zhǔn)和安全性,這些都是需要經(jīng)過概念驗(yàn)證的細(xì)節(jié),考驗(yàn)的是團(tuán)隊(duì)的工程化能力。 根據(jù)王啟斌透露的信息,機(jī)器人想要接到工廠的實(shí)際訂單,要經(jīng)過起碼三個(gè)階段,時(shí)間可能需要一年。 “第一個(gè)階段是在實(shí)驗(yàn)室進(jìn)行為期三個(gè)月的內(nèi)測(cè),我們會(huì)一比一搭建、復(fù)刻實(shí)際的工廠環(huán)境?!蓖鯁⒈笳f,在此期間,團(tuán)隊(duì)需要根據(jù)場(chǎng)景進(jìn)行新的數(shù)據(jù)采集、模型調(diào)優(yōu),并且確保硬件整機(jī)的穩(wěn)定性。 完成了這一步之后,需要前往客戶的場(chǎng)景中進(jìn)行為期三個(gè)月的驗(yàn)證階段。當(dāng)打磨后的大模型實(shí)際落地,技術(shù)理想和現(xiàn)實(shí)場(chǎng)景的分歧才剛剛顯現(xiàn)。 正如王啟斌所說:“很多問題都是走進(jìn)工廠才會(huì)發(fā)現(xiàn)?!痹趯?shí)際的工廠中,光線條件復(fù)雜,可能干擾機(jī)器人視覺系統(tǒng)對(duì)物體的識(shí)別和定位;現(xiàn)場(chǎng)存在大量機(jī)器設(shè)備,產(chǎn)生的電磁干擾會(huì)影響機(jī)器人的信號(hào)傳輸,導(dǎo)致指令延遲或錯(cuò)誤;不同工廠的生產(chǎn)流程和布局差異極大,機(jī)器人需快速適應(yīng)新的空間環(huán)境和操作路徑規(guī)劃。 同時(shí),客戶也會(huì)針對(duì)這個(gè)環(huán)節(jié)提出成功率、作業(yè)效率的要求?!斑@三個(gè)月,客戶對(duì)成功性有一定的要求,效率需要達(dá)到實(shí)際人工作業(yè)的60%左右?!蓖鯁⒈笸嘎丁?/p> 六個(gè)月后,機(jī)器人才可以在有人陪產(chǎn)的狀況下,進(jìn)行實(shí)際部署?!斑@個(gè)階段產(chǎn)品要真正在生產(chǎn)環(huán)境中運(yùn)行,承受生產(chǎn)環(huán)境的壓力?!?靈初智能聯(lián)合創(chuàng)始人、強(qiáng)化學(xué)習(xí)負(fù)責(zé)人陳源培告訴第一財(cái)經(jīng)記者,工廠中存在很多不可控因素,比如突然地人為打斷、避讓,需要機(jī)器人在這些場(chǎng)景中有效反饋。 這意味著機(jī)器人的上層大腦需要具備有效的推理能力?!爱?dāng)有人發(fā)出‘讓一讓’或是‘幫忙撿一下’的指令時(shí),機(jī)器人的上層大腦需要聽得懂,也就是對(duì)這些信號(hào)進(jìn)行分析和推理,迅速作出合理反應(yīng),調(diào)整當(dāng)前任務(wù)流程?!标愒磁啾硎?,在實(shí)際的訓(xùn)練中,團(tuán)隊(duì)會(huì)通過強(qiáng)化學(xué)習(xí),在模擬環(huán)境中利用一些被打斷的數(shù)據(jù)進(jìn)行訓(xùn)練,優(yōu)化決策策略,增強(qiáng)上層大腦應(yīng)對(duì)打斷的推理和決策能力。 跟工業(yè)機(jī)器人搶?shí)徫??精?xì)化才是目標(biāo) 在產(chǎn)品驗(yàn)證階段,除了工程化能力之外,最難的恰恰是“選擇場(chǎng)景”,也就是王啟斌口中所說的“第一刀扎在哪里”。 第一財(cái)經(jīng)梳理發(fā)現(xiàn),在一些泛工業(yè)場(chǎng)景,已經(jīng)進(jìn)廠的人形機(jī)器人們,大多數(shù)從事的是一些放置、搬運(yùn)、檢測(cè)的工種。在浙江寧波前灣新區(qū)的吉利汽車極氪5G智慧工廠,優(yōu)必選S1工業(yè)人形機(jī)器人開始進(jìn)行搬運(yùn)物料的工作,并對(duì)車標(biāo)及車燈實(shí)施毫米級(jí)無損傷檢測(cè);樂聚旗下的人形機(jī)器人“夸父”也在汽車工廠中進(jìn)行搬運(yùn)物料箱的操作;在今年3月公布的新視頻中,波士頓動(dòng)力的機(jī)器人Atlas也進(jìn)入了汽車廠進(jìn)行零件排序的工作;本月宣布在上汽通用工廠落地的開普勒K2則能夠在工廠中完成車身縫隙檢測(cè)等任務(wù)。 不過,對(duì)于一些自動(dòng)化足夠高的“黑燈工廠”,布滿工業(yè)機(jī)器人的自動(dòng)化流水線已經(jīng)足夠能夠解決人力不足的問題,人形機(jī)器人如果僅僅是替代機(jī)械臂、帶移動(dòng)底盤的搬運(yùn)叉車,意義在哪里? “我們希望在未來,人形機(jī)器人進(jìn)廠,所做的工作都是目前只能通過人力,自動(dòng)化設(shè)備無法做的那些?!蓖鯁⒈笾赋觯趫?chǎng)景落地的選擇上,自己會(huì)優(yōu)先選擇更需要人工完成、具有遷移性和通用性的場(chǎng)景,例如3C制造的質(zhì)檢車間。 在他的邏輯里,在3C制造的質(zhì)檢車間中,細(xì)致化、靈活化的操作仍然需要由通用性更強(qiáng)的人形機(jī)器人完成:抓取以零點(diǎn)幾毫米為單位的微小原料,完成不同零部件的數(shù)量清點(diǎn)和外觀檢測(cè)……在多個(gè)SKU、工位動(dòng)態(tài)變化的情況下,自動(dòng)化設(shè)備的固定化特征無法解決這些工作?!懊總€(gè)場(chǎng)景中,單個(gè)操作所拆分出來的原子動(dòng)作有多少、每個(gè)動(dòng)作中的節(jié)拍是多少、動(dòng)作串聯(lián)的成功率是否能夠穩(wěn)定下來,這些都需要專業(yè)的工程化團(tuán)隊(duì)去解決,并用結(jié)果說服客戶?!?/p> 或許,顆粒度足夠小、泛化性足夠高的崗位,才是人形機(jī)器人最后在工廠中實(shí)際想要“應(yīng)征上崗”的目標(biāo)。 陳源培也察覺到,相比技術(shù)的完美性,客戶更關(guān)注落地的可行性?!熬呱碇悄艿腣LA模型仍然在發(fā)展早期,長(zhǎng)程任務(wù)的推理能力仍然可能增加機(jī)器人操作實(shí)時(shí)性降低的風(fēng)險(xiǎn),后期我們也需要進(jìn)一步通過模型、推理優(yōu)化的方式來確保工業(yè)場(chǎng)景中的實(shí)時(shí)控制要求?!?/p> |