從斯坦福大學(xué)的 VIMA 機(jī)器人智能體,到谷歌 DeepMind 推出首個(gè)控制機(jī)器人的視覺 - 語(yǔ)言 - 動(dòng)作(VLA)的模型 RT-2,大模型加持的機(jī)器人研究備受關(guān)注。
當(dāng)前,自監(jiān)督和語(yǔ)言監(jiān)督的圖像模型已經(jīng)包含豐富的世界知識(shí),這對(duì)于泛化來說非常重要,但圖像特征是二維的。我們知道,機(jī)器人任務(wù)通常需要對(duì)現(xiàn)實(shí)世界中三維物體的幾何形狀有所了解。
基于此,來自 MIT CSAIL 和 IAIFI 的研究者利用蒸餾特征場(chǎng)(Distilled Feature Field,DFF),將準(zhǔn)確的 3D 幾何圖形與來自 2D 基礎(chǔ)模型的豐富語(yǔ)義結(jié)合起來,讓機(jī)器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺和語(yǔ)言先驗(yàn),完成語(yǔ)言指導(dǎo)的操作。
論文地址:https://arxiv.org/abs/2308.07931
具體來說,該研究提出了一種用于 6-DOF 抓取和放置的小樣本學(xué)習(xí)方法,并利用強(qiáng)大的空間和語(yǔ)義先驗(yàn)泛化到未見過物體上。使用從視覺 - 語(yǔ)言模型 CLIP 中提取的特征,該研究提出了一種通過開放性的自然語(yǔ)言指令對(duì)新物體進(jìn)行操作,并展示了這種方法泛化到未見過的表達(dá)和新型物體的能力。
研究團(tuán)隊(duì)用一個(gè)講解視頻詳細(xì)介紹了 F3RM 方法的技術(shù)原理:
運(yùn)動(dòng)控制器以傳感器為信號(hào)敏感元件,以電機(jī)或動(dòng)力裝置和執(zhí)行單元為控制對(duì)象的一種控制裝置,為電機(jī)或其它動(dòng)力和執(zhí)行裝置提供正確的控制信號(hào)
典型的機(jī)器人電子電氣結(jié)構(gòu)主要由以下部分組成, 電源管理,環(huán)境感知,中央控制單元,電機(jī)控制,人機(jī)界面, 可選組件和其他應(yīng)用
通過動(dòng)力元件推動(dòng)工作介質(zhì)(液體或氣體)在缸體內(nèi)產(chǎn) 生壓力差而驅(qū)動(dòng)執(zhí)行元件,與其他驅(qū)動(dòng)方式相比,液壓和氣壓驅(qū)動(dòng)具有輸出功率密度大,易于實(shí)現(xiàn)遠(yuǎn)距離控制以及輸出力大等優(yōu)點(diǎn)
微型驅(qū)動(dòng)器和減速器的發(fā)展為手指驅(qū)動(dòng)系統(tǒng)的微型化和集成化創(chuàng)造了條件,其直線驅(qū)動(dòng)器將旋轉(zhuǎn)電機(jī),旋轉(zhuǎn)直線轉(zhuǎn)換結(jié)構(gòu)和減速機(jī)都集成在靈巧手內(nèi)部
混合置式靈巧手將一部分驅(qū)動(dòng)器放在手臂,既保證了驅(qū)動(dòng)力,也降低了靈巧手本體的體積, 使得靈巧手更加擬人化
驅(qū)動(dòng)器內(nèi)置式靈巧手各關(guān)節(jié)具有較好的剛性,更利于傳感器的直接測(cè)量,且模塊化設(shè)計(jì)利于更換維護(hù);整手尺寸較大,關(guān)節(jié)靈活度下降
靈巧手的外觀設(shè)計(jì)更加擬人化,手指本體更加纖細(xì);可以采用更大的驅(qū)動(dòng)電機(jī),從而增大手指的輸出力;驅(qū)動(dòng)器與手本體之間距離遠(yuǎn)增加了控制器設(shè)計(jì)的難度
第一階段是從 20 世紀(jì) 70 年代—20 世紀(jì) 90 年代,典型代表是日本的 Okada、美國(guó)的 Stanford/JPL 和 Utah/MIT;第二階段是從 20 世紀(jì) 90 年代到 2010 年
靈巧手是機(jī)器人操作和動(dòng)作執(zhí)行的末端工具,滿足兩個(gè)條件:指關(guān)節(jié)運(yùn)動(dòng)時(shí)能使物體產(chǎn)生任意運(yùn)動(dòng),指關(guān)節(jié)固定時(shí)能完全限制物體的運(yùn)動(dòng),定義靈巧手是指數(shù)≥3,自由度≥9 的末端執(zhí)行器
特斯拉公布了 6 種規(guī)格的執(zhí)行器,旋轉(zhuǎn)執(zhí)行器采用諧波減速器+電機(jī)的方案,線性執(zhí)行器采用絲杠+電機(jī)的方案,對(duì)于手掌關(guān)節(jié),其采用了空心杯電機(jī)+蝸輪蝸桿的結(jié)構(gòu)
人形機(jī)器人有更強(qiáng)的柔性化水平,更好的環(huán)境感知能力和判斷能力,首要需要解決的問題是如何實(shí)現(xiàn)像人一樣去運(yùn)動(dòng),能夠兼顧可靠性
28個(gè)執(zhí)行器分別為肩關(guān)節(jié)(單側(cè)三自由度旋轉(zhuǎn)關(guān)節(jié))6個(gè),肘關(guān)節(jié)(單側(cè)直線關(guān)節(jié))2個(gè),腕部關(guān)節(jié)(單側(cè)2個(gè)直線+1個(gè)旋轉(zhuǎn))6個(gè),腰部(二自由度旋轉(zhuǎn)關(guān)節(jié))2個(gè)