48155 人形機(jī)器人,怎么又行了?
服務(wù)熱線:400-858-9000 咨詢/投訴熱線:18658148790
國(guó)內(nèi)專業(yè)的一站式創(chuàng)業(yè)服務(wù)平臺(tái)
人形機(jī)器人,怎么又行了?
2023/07/14
我們現(xiàn)在已經(jīng)清晰地看到了一條路,一條在三年、五年內(nèi)有可能跑出通用人形機(jī)器人平臺(tái),甚至在某些特定場(chǎng)景中跑出人形機(jī)器人產(chǎn)品的路。
本文來(lái)自于微信公眾號(hào)“鋅產(chǎn)業(yè)”(ID:xinchanye2021),作者:山竹,投融界經(jīng)授權(quán)發(fā)布。

在剛剛過(guò)去的WAIC2023上,沒(méi)到現(xiàn)場(chǎng)的馬斯克,把“擎天柱”派到了現(xiàn)場(chǎng)……

盡管這臺(tái)人形機(jī)器人被放在了罩子,在現(xiàn)場(chǎng)也沒(méi)有做什么表演或動(dòng)作展示,但在會(huì)場(chǎng)中依然被幾度圍觀。

再結(jié)合馬斯克在開(kāi)幕式視頻演講中發(fā)表了的觀點(diǎn):

“在將來(lái)某個(gè)時(shí)刻,地球上機(jī)器人與人類的比例可能會(huì)超過(guò)1:1,這意味著機(jī)器人的數(shù)量將超過(guò)人類,甚至?xí)嗪芏唷!?/span>

人形機(jī)器人無(wú)疑成了WAIC2023上關(guān)注度最高的一個(gè)話題。

人形機(jī)器人,怎么又行了?

實(shí)際上,我們發(fā)現(xiàn),WAIC2023上,僅僅是關(guān)于人形機(jī)器人的主題論壇就有不下五個(gè),參展機(jī)器人廠商更是超過(guò)了20家。

此外,據(jù)鋅產(chǎn)業(yè)了解,現(xiàn)在國(guó)內(nèi)但凡機(jī)器人做得還不錯(cuò)的團(tuán)隊(duì),不少都已經(jīng)開(kāi)始涉足人形機(jī)器人領(lǐng)域。

除了康復(fù)機(jī)器人領(lǐng)域獨(dú)角獸企業(yè)傅利葉智能在WAIC2023期間首發(fā)人形機(jī)器人外,今年下半年我們將會(huì)看到有更多人形機(jī)器人面世。

似乎,一夜之間,人形機(jī)器人猶如雨后春筍般,從各地相繼冒出。

為什么圈內(nèi)人都覺(jué)得,人形機(jī)器人真得又行了呢?

01

暴力美學(xué)造就通用AI

大家之所以會(huì)覺(jué)得人形機(jī)器人又行了,同樣和現(xiàn)在科技圈最火爆的大模型不無(wú)關(guān)系。

2022年11月30日,ChatGPT正式問(wèn)世,隨后,ChatGPT僅僅用了兩個(gè)月,就擁有了1億用戶。

一個(gè)對(duì)比數(shù)據(jù)是,增長(zhǎng)到1億用戶量,F(xiàn)acebook用了4.5年,Instagram用了2.5年,即便是如今仍屬新鮮事物的TikTok也用了9個(gè)月。

之所以列出這么一組數(shù)據(jù),是為了更直觀地體現(xiàn)ChatGPT當(dāng)時(shí)在全球的火爆程度,而一般這樣全球性的現(xiàn)象級(jí)產(chǎn)品,必有其顛覆性所在。

ChatGPT的顛覆性在于它的“通用性”,準(zhǔn)確地說(shuō),應(yīng)該是人工智能的通用性。

ChatGPT的背后,是一家曾經(jīng)少有人知(至少在國(guó)內(nèi)是),如今卻無(wú)人不知的AI創(chuàng)業(yè)團(tuán)隊(duì)OpenAI,這個(gè)創(chuàng)業(yè)團(tuán)隊(duì)最早是由特斯拉創(chuàng)始人馬斯克、PayPal創(chuàng)始人彼得·蒂爾、YC創(chuàng)始人利文斯頓,以及現(xiàn)在OpenAI的掌舵人奧特曼等硅谷大佬創(chuàng)辦,目的就是為了研究人工智能技術(shù)。

當(dāng)然,據(jù)馬斯克曾經(jīng)透露,創(chuàng)立OpenAI其實(shí)還有另一個(gè)原因,是幾位大佬為了聯(lián)合對(duì)抗谷歌的AI霸權(quán)。

人形機(jī)器人,怎么又行了?

這樣的硅谷最強(qiáng)天團(tuán),既不缺錢,也不缺資源,于是他們走了一條別人敢想不敢干的路——用巨量算力資源訓(xùn)練一個(gè)巨量參數(shù)的通用人工智能大模型,也就是LLM,通用大語(yǔ)言模型。

這里我們?cè)倭信e兩個(gè)數(shù)據(jù)來(lái)看一下,LLM訓(xùn)練究竟有多消耗資源:

GPT-3使用1萬(wàn)塊V100GPU,花了30天才訓(xùn)練完了1750億參數(shù),訓(xùn)練一次要消耗19萬(wàn)度電,整體訓(xùn)練成本約為140萬(wàn)美元;

GPT-4參數(shù)規(guī)模更是達(dá)到了1.76萬(wàn)億個(gè),理論上來(lái)說(shuō),消耗資源量至少是GPT-3的10倍。

我們完全有理由認(rèn)為,這是一群科學(xué)瘋子,在通過(guò)巨量資源嘗試引發(fā)一次AI質(zhì)變,他們信奉的是暴力美學(xué)。

幸運(yùn)的是,他們成功地訓(xùn)練出了通用大語(yǔ)言模型,這從ChatGPT問(wèn)世后的使用效果和科技巨頭的追捧熱度就能有一個(gè)直觀感受。

人形機(jī)器人,怎么又行了?

那么,通用大語(yǔ)言模型,能為人形機(jī)器人帶來(lái)什么呢?

02

人形機(jī)器人的死亡陷阱

人形機(jī)器人一直被認(rèn)為是機(jī)器人的終極形態(tài)。

之所以如此,是因?yàn)?,人形機(jī)器人理論上可以完成所有人類在做的非標(biāo)任務(wù)。

因而,幾乎每個(gè)機(jī)器人創(chuàng)業(yè)團(tuán)隊(duì),或多或少都有過(guò)搞人形機(jī)器人的念頭。

在之前很長(zhǎng)一段時(shí)間里,大概是早稻田大學(xué)搞出WABOT后,人形機(jī)器人一直處于一個(gè)在硬件能力上尋求突破的階段。當(dāng)時(shí)大家都是在想,如何通過(guò)工程結(jié)構(gòu)、制造能力、系統(tǒng)動(dòng)力學(xué)來(lái)讓人形機(jī)器人像人一樣地動(dòng)起來(lái)。

于是,在過(guò)去幾十年里,隨著機(jī)器人的電機(jī)、控制器、減速器等核心器件的工藝、性能不斷提升,以及機(jī)器人系統(tǒng)能力逐漸完善,人形機(jī)器人最終如愿逐漸能夠走了起來(lái)。

我們看到,本田在1972年搞出了阿西莫(ASIMO)震驚行業(yè),波士頓動(dòng)力在2016年亮出了Atlas秀翻全網(wǎng)。

就在波士頓動(dòng)力Atlas在網(wǎng)上又是表演后空翻,又是表演踩梅花樁時(shí),一個(gè)一直未能解決的問(wèn)題——商業(yè)化問(wèn)題,讓波士頓動(dòng)力始終困于熒幕之上、網(wǎng)絡(luò)之中。

我們看到,無(wú)法很好地實(shí)現(xiàn)商業(yè)化的波士頓動(dòng)力,在最近十年里相繼被最喜歡工程師的谷歌、最喜歡機(jī)器人的軟銀先后收購(gòu)后,最終又轉(zhuǎn)手給了現(xiàn)代汽車。

汽車工業(yè)是自動(dòng)化、信息化最高一個(gè)場(chǎng)景,也被認(rèn)為是軍工之外最有可能率先用上波士頓動(dòng)力四足機(jī)器人,甚至人形機(jī)器人的地方。

2021年6月,波士頓動(dòng)力正式歸于現(xiàn)代汽車門下,而這很有可能將是他們最后一站,如果這一站商業(yè)化再?zèng)]什么成果,人形機(jī)器人很有可能會(huì)再次掉入死亡曲線中的又一個(gè)低谷,沉寂再所難免。

可能有人會(huì)問(wèn),為什么人形機(jī)器人這么難商業(yè)化?

這是因?yàn)槿诵螜C(jī)器人是完全仿照人的外形研發(fā)的一種機(jī)器人,因而天然需要面對(duì)更復(fù)雜的、不確定的場(chǎng)景。

這有點(diǎn)類似人工智能技術(shù)的發(fā)展,會(huì)下棋的AlphaGo只能算是專用人工智能,這種專用人工智能算法研發(fā)只需要瞄著一個(gè)應(yīng)用場(chǎng)景,用大量數(shù)據(jù)一直進(jìn)行訓(xùn)練,總有修成神功的一天。

對(duì)應(yīng)到機(jī)器人領(lǐng)域,面向各類工業(yè)環(huán)境研發(fā)的專用機(jī)械臂已經(jīng)十分成熟,尤其在汽車工業(yè)的沖壓、焊接、噴涂、總裝等環(huán)節(jié)中早已有了廣泛應(yīng)用,這也就是為什么工業(yè)機(jī)器人在全球能有超過(guò)1400億產(chǎn)值規(guī)模的主要原因。

人形機(jī)器人要解決的不是這些問(wèn)題,或者說(shuō)人們期望作為機(jī)器人終極形態(tài)的人形機(jī)器人要解決的,不是這類問(wèn)題,而是真實(shí)世界中更復(fù)雜的問(wèn)題,這就需要解決機(jī)器人的通用性問(wèn)題。

我們這里先說(shuō)一下人工智能的本質(zhì),我的簡(jiǎn)單理解是:

人工智能的本質(zhì)就是算法。

算法應(yīng)用到軟件上,就形成了有智能推薦系統(tǒng)的搜索引擎、有智能客服系統(tǒng)的電商平臺(tái);

算法應(yīng)用到硬件上,就形成了有智能語(yǔ)音系統(tǒng)的音箱、有智能規(guī)劃系統(tǒng)的掃地機(jī)器人。

所以,當(dāng)通用大語(yǔ)言模型這樣的通用人工智能算法出現(xiàn)后,苦苦尋找提升人形機(jī)器人通用性的機(jī)器人團(tuán)隊(duì),就興奮了起來(lái)。

人形機(jī)器人+通用大語(yǔ)言模型,不就有了通用人形機(jī)器人了嗎?

03

具身智能,一次機(jī)器人的能力泛化

在討論具身智能之前,我們先要做一個(gè)假設(shè):

假設(shè)人形機(jī)器人所需要的電機(jī)的扭矩密度、電池的能量密度都已經(jīng)足以支撐人形機(jī)器人進(jìn)行各種高強(qiáng)度運(yùn)動(dòng),控制器、減速器也都已經(jīng)不是問(wèn)題。

這時(shí)候,軟實(shí)力就變得尤為重要,而以ChatGPT為代表的通用大語(yǔ)言模型,顯然已經(jīng)為人形機(jī)器人打了一個(gè)樣兒。

ChatGPT當(dāng)然可以直接應(yīng)用到人形機(jī)器人上,這就能讓人形機(jī)器人在對(duì)我們這個(gè)真實(shí)世界的認(rèn)知上,有一個(gè)極大的提升,人機(jī)交互能力也會(huì)有一個(gè)階躍式提升。

這也是為什么今年上半年,阿里、百度分別將通用大語(yǔ)言模型首先加載到了旗下天貓精靈、小度智能音箱上,這也或?qū)⑹俏覀冋嬲叱鋈跞斯ぶ悄艿牡谝徊健?/span>

不過(guò),人形機(jī)器人,目前當(dāng)務(wù)之急,還是將運(yùn)動(dòng)能力提上去,如果以人類運(yùn)動(dòng)能力為標(biāo)準(zhǔn)的話,至少要讓人形機(jī)器人能先達(dá)到及格線以上。

是的,現(xiàn)在市面上大家能看到的人形機(jī)器人,即便是最基本的運(yùn)動(dòng)能力,仍處在及格線以下(不是說(shuō)人形機(jī)器人的運(yùn)動(dòng)能力差,實(shí)在是人類運(yùn)動(dòng)能力太強(qiáng)了),這是當(dāng)下行業(yè)的一個(gè)普遍共識(shí)。

而據(jù)鋅產(chǎn)業(yè)了解,現(xiàn)在已經(jīng)有機(jī)器人公司在通過(guò)ChatGPT提升人形機(jī)器人運(yùn)動(dòng)能力,例如優(yōu)必選就已經(jīng)在用類ChatGPT大模型做運(yùn)動(dòng)規(guī)劃,通過(guò)大模型做長(zhǎng)序列、長(zhǎng)周期的動(dòng)作序列拆解。

通過(guò)大模型做人形機(jī)器人的運(yùn)動(dòng)規(guī)劃的好處是,可以提升機(jī)器人在動(dòng)作執(zhí)行過(guò)程中的決策和規(guī)劃能力。

這其中體現(xiàn)大模型通用性的,是一個(gè)被稱作“泛化”的能力。

我是在清華大學(xué)交叉信息研究院助理教授許華哲的演講中了解的這個(gè)概念,他用機(jī)器人切豆腐為例解釋了泛化能力對(duì)于具身智能的重要性:

一臺(tái)機(jī)器人學(xué)會(huì)用一把刀切豆腐后,當(dāng)這把刀的顏色、姿態(tài)、位置無(wú)論怎樣變化,這臺(tái)機(jī)器人都能識(shí)別出這把刀,并完成切豆腐這個(gè)任務(wù),這就是泛化能力的體現(xiàn)。

如果人形機(jī)器人在運(yùn)動(dòng)規(guī)劃上也有了這樣的泛化能力,那么,理論上,人形機(jī)器人只要學(xué)會(huì)在一種地形上走路,就能夠自己學(xué)會(huì)在全地形場(chǎng)景下自由行走。

也就是說(shuō),走路就成了人形機(jī)器人的一個(gè)目標(biāo),人形機(jī)器人只要在一個(gè)環(huán)境下實(shí)現(xiàn)了這個(gè)目標(biāo),就能夠在所有環(huán)境中自適應(yīng)完成目標(biāo)。

這時(shí),機(jī)器人就從程序執(zhí)行導(dǎo)向,轉(zhuǎn)向?yàn)槟繕?biāo)完成導(dǎo)向。

這樣的人形機(jī)器人也就有了感知運(yùn)動(dòng)智能,甚至有了一定的認(rèn)知能力,人形機(jī)器人由此也就完成了一次高維進(jìn)化。

具備泛化能力,正是人形機(jī)器人成為通用機(jī)器人的第一步。

04

人形機(jī)器人的N種可能

首先說(shuō)一個(gè)我自己的判斷:

無(wú)論是否有被冠以“通用”二字,人形機(jī)器人本質(zhì)上就是一類擁有通用能力的機(jī)器人。

如果不是為了做通用機(jī)器人,完全沒(méi)有必要做成人形。

在自動(dòng)化能力更高的倉(cāng)儲(chǔ)系統(tǒng)中,AGV效率本就更高;在汽車總裝車間里,機(jī)械臂效率也已經(jīng)很高。

如果追求極致高效,應(yīng)用于這些場(chǎng)景中的機(jī)器人完全沒(méi)有必要做成人形。

所以,這幾年陸續(xù)出現(xiàn)的人形機(jī)器人,某種意義上,都可以被認(rèn)為是通用人形機(jī)器人。

但人形機(jī)器人在實(shí)際應(yīng)用時(shí),會(huì)率先在哪些場(chǎng)景落地?

我們現(xiàn)在能夠看到的是,特斯拉正在嘗試將人形機(jī)器人應(yīng)用于工廠中,前不久發(fā)布了人形機(jī)器人的傅利葉智能本就是醫(yī)療康養(yǎng)機(jī)器人領(lǐng)域的明星企業(yè),養(yǎng)老、助老也就成了人形機(jī)器人落地場(chǎng)景之一。

顯然,制造工廠、醫(yī)療康養(yǎng),已經(jīng)成了如今人形機(jī)器人兩個(gè)黃金賽道。

如果再往長(zhǎng)遠(yuǎn)來(lái)看,就像大模型在各個(gè)行業(yè)中都已經(jīng)裂變出了行業(yè)大模型一樣,搭載行業(yè)大模型的人形機(jī)器人,也會(huì)隨之進(jìn)入各個(gè)行業(yè)。

不過(guò),這其中還有兩個(gè)關(guān)鍵難題需要解決:

一個(gè)是硬件難題,關(guān)鍵零部件的技術(shù)突破,將成為擁有優(yōu)秀的運(yùn)動(dòng)能力的平臺(tái)級(jí)人形機(jī)器人成形的關(guān)鍵;

我們看到,國(guó)內(nèi)越來(lái)越多硬科技團(tuán)隊(duì)涌入人形機(jī)器人這一賽道中,但是人形機(jī)器人的關(guān)鍵零部件仍需進(jìn)一步突破,才能支撐起一個(gè)通用人形機(jī)器人平臺(tái)的成形。

以電機(jī)為例,目前,電機(jī)扭矩密度做得最高的是MIT和UCLA做的電機(jī),已經(jīng)能實(shí)現(xiàn)38N.m/kg的扭矩密度,但這尚不足以支撐一臺(tái)標(biāo)準(zhǔn)體重的成年男人自由彈跳或奔跑。

一個(gè)是軟件難題,人形機(jī)器人現(xiàn)在還沒(méi)有足夠的場(chǎng)景數(shù)據(jù),來(lái)在某個(gè)場(chǎng)景中訓(xùn)練出一個(gè)通用人工智能大模型,讓人形機(jī)器人基于此進(jìn)行自我進(jìn)化。

前文提到,以ChatGPT為代表的通用人工智能本身追求的是暴力美學(xué),需要大量樣本數(shù)據(jù)來(lái)訓(xùn)練,才能形成具備通用知識(shí)的理解、分析、決策能力的通用人工智能大模型。

對(duì)于人形機(jī)器人而言,由于尚且沒(méi)有得到批量化應(yīng)用的場(chǎng)景,也就沒(méi)有這么多直接的場(chǎng)景數(shù)據(jù)。

例如在工業(yè)場(chǎng)景中,由于此前并沒(méi)有人形機(jī)器人直接參與,相應(yīng)的運(yùn)行數(shù)據(jù)自然也就無(wú)從談起,可以用于人形機(jī)器人訓(xùn)練的場(chǎng)景數(shù)據(jù),更多是來(lái)自空間位置數(shù)據(jù)、機(jī)械臂及制造設(shè)備的運(yùn)行數(shù)據(jù),以及工人的工作日志等。

不過(guò),清華大學(xué)鄧志東教授也指出,大模型+思維鏈等提示詞工程,可以實(shí)現(xiàn)零樣本學(xué)習(xí),這將推動(dòng)智能機(jī)器人的產(chǎn)業(yè)落地。

總體而言,人形機(jī)器人發(fā)展道路上依然有諸多困難。

不同的是,我們現(xiàn)在已經(jīng)清晰地看到了一條路,一條在三年、五年內(nèi)有可能跑出通用人形機(jī)器人平臺(tái),甚至在某些特定場(chǎng)景中跑出人形機(jī)器人產(chǎn)品的路。

就在五年前,整個(gè)行業(yè)的判斷還是要十年、二十年,乃至更長(zhǎng)時(shí)間才能到來(lái)。

這就是當(dāng)下這個(gè)時(shí)代,一個(gè)讓機(jī)器人團(tuán)隊(duì)再次興奮起來(lái)的時(shí)代。

AI 人形機(jī)器人
評(píng)論
還可輸入300個(gè)字
專欄介紹
鋅產(chǎn)業(yè)
20篇文章
用技術(shù)范式,給未來(lái)一個(gè)解釋。
+關(guān)注
400-858-9000
免費(fèi)服務(wù)熱線
kefu@trjcn.com
郵箱
09:00--20:00
服務(wù)時(shí)間
18658148790
投訴電話
投融界App下載
官方微信公眾號(hào)
官方微信小程序
Copyright ? 2024 浙江投融界科技有限公司(ghy2.cn) 版權(quán)所有 | ICP經(jīng)營(yíng)許可證:浙B2-20190547 | 浙ICP備10204252號(hào)-1 | 浙公網(wǎng)安備33010602000759號(hào)
地址:浙江省杭州市西湖區(qū)留下街道西溪路740號(hào)7號(hào)樓301室
浙江投融界科技有限公司trjcn.com版權(quán)所有 | 用戶協(xié)議 | 隱私條款 | 用戶權(quán)限
應(yīng)用版本:V2.7.8 | 更新日期:2022-01-21
 安全聯(lián)盟
在線客服
手機(jī)APP
微信訂閱