Nature文獻(xiàn)分享:突破性研究顛覆人機交互的Meta人機手環(huán)的開發(fā)
瀏覽次數(shù):857 發(fā)布日期:2025-8-29
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
引言:告別鼠標(biāo)鍵盤,解鎖未來人機交互的“黑科技”
隨著科技的飛速發(fā)展,人類與機器的交流方式也在不斷革新。最初,我們通過鍵盤和鼠標(biāo)與計算機互動,后來觸摸屏和語音助手的出現(xiàn)讓人與設(shè)備的聯(lián)系變得更加直觀和便捷。然而,隨著虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR)等新技術(shù)的普及,傳統(tǒng)的交互方式逐漸顯得局限,特別是在動態(tài)的場景中,是否可能有一種“超自然”的方式來直接控制設(shè)備?
近日,Meta Reality Labs團隊在《Nature》發(fā)布了題為“A generic non-invasive neuromotor interface for human-computer interaction”的文章,報告了他們的最新研究成果:一種基于深度學(xué)習(xí)的非侵入式肌電信號通用解碼模型。讓你無需觸摸、無需鍵盤、無需鼠標(biāo),僅憑肌肉的微弱電信號就能實現(xiàn)與計算機的自然互動;這項研究的核心除了利用一種多通道的肌電采集手環(huán)外,還有著背后強大的深度學(xué)習(xí)解碼模型,使得這一技術(shù)具備了跨人群的普適性,真正實現(xiàn)了“即插即用”的人機交互體驗。
圖 1. 論文信息
從手勢到文字輸入,如何實現(xiàn)神經(jīng)意圖的解碼?
團隊使用了表面肌電信號(sEMG)技術(shù),通過一個佩戴在手腕上的小巧設(shè)備,捕捉肌肉發(fā)出的電信號,然后通過深度神經(jīng)網(wǎng)絡(luò)將這些信號轉(zhuǎn)化為計算機可識別的指令。簡而言之,它讓你用肌肉信號來“指揮”計算機工作。
這一技術(shù)的實現(xiàn)依賴于硬件與算法的創(chuàng)新融合,其中Meta開發(fā)的sEMG干電極手腕帶發(fā)揮了重要作用,這款腕帶內(nèi)嵌16路通道傳感器,能夠高頻率、低噪聲地收集手腕、前臂和手部的肌電信號,并通過專門的算法實時解碼這些信號,精準(zhǔn)還原用戶的動作意圖。最令人激動的是,Meta的研究團隊沒有依賴傳統(tǒng)的個體校準(zhǔn),而是通過大規(guī)模的數(shù)據(jù)收集系統(tǒng)(招募了超過6000名受試者),通過這些大規(guī)模多樣化的數(shù)據(jù),研究者開發(fā)出多個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的通用模型,分別用于三類任務(wù):LSTM用于連續(xù)控制,卷積+LSTM結(jié)構(gòu)用于手勢識別,Conformer結(jié)構(gòu)用于復(fù)雜的手寫解碼。能夠適用于不同性別、膚色、手腕大小的用戶。換句話說,無論是誰,戴上這款設(shè)備后,都能實現(xiàn)流暢的手勢識別、光標(biāo)控制甚至無筆手寫輸入。
圖 2. 用于腕部表面肌電圖(sEMG)高通量記錄和實時解碼的硬件和軟件平臺
如圖2所示,Meta團隊的硬件平臺為一個基于多通道sEMG干電極腕帶的高通量記錄和實時解碼的硬件和軟件平臺,它具有48個電極針,這些電極配置為16路雙極通道,并且沿著前臂的近遠(yuǎn)端方向排列。平臺能夠通過藍(lán)牙無線傳輸實時采集信號,并將這些肌電信號傳輸給計算機進(jìn)行解碼。圖2a為sEMG數(shù)據(jù)收集概述。參與者佩戴sEMG腕帶,系統(tǒng)提示參與者進(jìn)行手部和手腕的各種運動。網(wǎng)絡(luò)攝像頭捕捉他們的手部和手腕(不包括面部)。在一天內(nèi)的兩次實驗之間,參與者會取下sEMG腕帶并稍微調(diào)整位置,以便能夠在不同的記錄位置之間進(jìn)行泛化。圖2b顯示了這款sEMG手腕帶的硬件配置,并展示了其如何通過高頻采樣和低噪聲處理,捕捉微弱的肌肉電信號。該設(shè)備不僅舒適便于佩戴,還可以在一天內(nèi)的不同實驗階段輕松拆卸并重新調(diào)整,以便在多個不同的佩戴位置下保持一致的信號質(zhì)量。圖2c則展示了參與者在三項任務(wù)(1D連續(xù)控制、離散手勢識別和無筆手寫輸入)中佩戴設(shè)備的實驗示意圖,其中手腕的運動和手勢活動通過設(shè)備實時記錄,結(jié)合運動捕捉系統(tǒng)和行為對齊算法精確標(biāo)定信號時間戳,為后續(xù)的深度學(xué)習(xí)模型訓(xùn)練提供了豐富的標(biāo)簽數(shù)據(jù)。
圖2d和2e展示了在離散手勢任務(wù)中,通過手腕手指的細(xì)微動作(如拇指點擊、食指捏合等)產(chǎn)生的肌電信號特征。這些信號的時空活動模式被捕捉并高頻率記錄,展現(xiàn)了設(shè)備在動態(tài)解碼過程中的穩(wěn)定性和高效性。
相較傳統(tǒng)BCI方法:通用性強,跨用戶泛化能力超乎想象!
這項技術(shù)的核心之一就是它強大的跨用戶泛化能力。傳統(tǒng)的肌電解碼系統(tǒng)通常需要針對每個用戶進(jìn)行單獨的訓(xùn)練和調(diào)校,這不僅消耗時間,還限制了系統(tǒng)的普適性。而Meta的這項技術(shù)成功解決了這一問題;诖罅靠缛巳旱挠(xùn)練數(shù)據(jù),該系統(tǒng)能夠自動識別用戶的肌肉信號,并準(zhǔn)確進(jìn)行手勢解碼和文字輸入。這意味著,所有人都可以無縫對接,實現(xiàn)高效的人機互動。
在實驗中,盡管每個用戶的肌肉結(jié)構(gòu)和運動方式都有差異,但模型在從未接觸過的用戶身上依然能夠達(dá)到超過90%的手勢識別準(zhǔn)確率,并且手腕角速度解碼誤差控制在每秒13度以內(nèi)。這標(biāo)志著跨人群的泛化能力,突破了以往肌電接口普遍存在的適配難題(如圖3所示)。
圖3. 單一參與者和多參與者模型的泛化性能
在實驗中,研究者展示了模型在不同用戶和不同任務(wù)下的解碼能力,結(jié)果令人驚嘆。圖3a展示了不同參與者在執(zhí)行四種離散手勢(如拇指滑動、食指捏合等)時的肌電信號差異。每一行代表一種手勢的信號,顏色區(qū)分了不同的參與者;圖3b則使用t-SNE降維方法展示了跨參與者的sEMG激活,每個點代表一個手勢實例?梢钥吹,盡管每個參與者的肌電信號存在差異,模型依然能較好地識別和區(qū)分不同的手勢;圖3c和3d展示了單一參與者模型和跨參與者模型在同一參與者和不同參與者上的泛化能力。結(jié)果表明,隨著訓(xùn)練數(shù)據(jù)的增加,單一用戶模型的性能逐漸提升,但跨用戶泛化能力在數(shù)據(jù)量增加時仍然有限,這也反映出跨用戶解碼的挑戰(zhàn);通過增加訓(xùn)練數(shù)據(jù)的參與人數(shù)和模型的參數(shù)量,模型的表現(xiàn)得到了顯著提升。圖3e展示了腕部角度預(yù)測任務(wù)、圖3f展示了手勢分類任務(wù),以及圖3g展示了手寫字符解碼任務(wù)的解碼誤差隨訓(xùn)練集大小的變化?梢钥吹,隨著參與人數(shù)的增多,解碼誤差隨之減少,并且呈現(xiàn)出冪律關(guān)系,這表明大數(shù)據(jù)量和模型規(guī)模對解碼性能的提升起到了重要作用;具體來說,圖3e、3f和3g中的曲線擬合結(jié)果表明,在每個任務(wù)中,隨著參與人數(shù)的增加,模型的性能呈現(xiàn)出冪律縮放,并且更大的模型參數(shù)量會進(jìn)一步提升性能。圖3e-g黑色和藍(lán)色的標(biāo)記展示了不同訓(xùn)練集大小和模型規(guī)模對錯誤率和分類準(zhǔn)確率的影響。對于離散手勢識別和手寫輸入,數(shù)據(jù)量的增多使得分類錯誤率降低到可接受水平,表現(xiàn)出系統(tǒng)在跨人群應(yīng)用中的潛力。
從實驗室到現(xiàn)實:足以替代現(xiàn)有的輸入方式
Meta的技術(shù)已經(jīng)不僅僅停留在實驗室里,研究團隊通過閉環(huán)任務(wù)測試,讓用戶在短時間內(nèi)掌握如何通過肌電信號完成各種操作。圖4展示了三種不同的閉環(huán)任務(wù),每個任務(wù)都驗證了肌電信號解碼系統(tǒng)在實際應(yīng)用中的表現(xiàn)。具體包括“
1.連續(xù)控制(圖4a):用戶能夠通過手腕控制光標(biāo)移動,以0.66次/秒的速度完成目標(biāo)選擇;
2.離散手勢識別(圖4b):手勢如拇指滑動、食指捏合等可以0.88次/秒識別;
3.手寫輸入(圖4c):用戶通過手腕上的肌肉信號輸入20.9詞/分鐘,幾乎接近常見的手機打字速度。
盡管與傳統(tǒng)的輸入設(shè)備(如MacBook觸控板和Nintendo Joy-Con游戲控制器)相比,性能還有差距,但其便攜性、隱形交互和無需額外設(shè)備的優(yōu)勢,足以在許多場景中替代現(xiàn)有的輸入方式。
圖4. 通用sEMG解碼模型能夠在不同的交互中實現(xiàn)閉環(huán)控制
圖4d展示了連續(xù)控制任務(wù)中光標(biāo)任務(wù)中的目標(biāo)獲取時間,這反映了系統(tǒng)在任務(wù)中的響應(yīng)速度;盡管手腕運動控制光標(biāo)時,系統(tǒng)的表現(xiàn)略低于使用MacBook觸控板的性能,但解碼系統(tǒng)在任務(wù)中的表現(xiàn)依然優(yōu)越,并且比標(biāo)準(zhǔn)任務(wù)設(shè)備提供了更高的便攜性和隱形交互優(yōu)勢;圖4e則展示了任務(wù)中光標(biāo)提前退出目標(biāo)的試驗結(jié)果,該圖表明提前退出的問題會隨著任務(wù)熟練度的提高而逐漸減少;圖4f展示了手勢任務(wù)中的首次檢測準(zhǔn)確率,結(jié)果顯示系統(tǒng)識別手勢的準(zhǔn)確率相當(dāng)高;圖4g則展示了任務(wù)中的手勢完成率,與使用游戲手柄的結(jié)果進(jìn)行了對比?梢钥吹,手勢完成率隨著訓(xùn)練和任務(wù)熟練度的提升不斷提升,表明系統(tǒng)可以通過更多的數(shù)據(jù)訓(xùn)練和持續(xù)優(yōu)化達(dá)到非常高的準(zhǔn)確率;圖4i和4j展示了手寫解碼任務(wù)中的兩項重要性能指標(biāo):字符錯誤率(CER)和每分鐘字?jǐn)?shù)(WPM)。在在線字符錯誤率(CER)中,系統(tǒng)的表現(xiàn)接近甚至優(yōu)于傳統(tǒng)手寫輸入設(shè)備,而每分鐘字?jǐn)?shù)(WPM)的速度也接近開放環(huán)路手寫速度,說明這一技術(shù)在實際文本輸入中具有很大的應(yīng)用潛力。
個性化微調(diào):深度學(xué)習(xí)揭秘神經(jīng)生理活動模式
如圖5所示,為了進(jìn)一步優(yōu)化系統(tǒng)的個性化交互體驗,研究人員在通用模型的基礎(chǔ)上進(jìn)行了個性化微調(diào)。通過僅使用20分鐘的個體數(shù)據(jù),手寫識別的性能可以平均提高約16.6%。這種“輕量級微調(diào)”對識別效果較差的用戶尤為有效,能夠顯著改善他們的使用體驗,因此是提升長尾用戶體驗的一個重要策略。
圖5. 通用sEMG手寫模型的個性化可提高性能
圖5a展示了個性化微調(diào)前后,模型在兩個不同參與者(左側(cè)和右側(cè))的手寫預(yù)測的變化。通過個性化微調(diào),模型的預(yù)測準(zhǔn)確性顯著提高,綠色字體表示正確字符,紫色字體表示錯誤字符。通過這種微調(diào),CER顯著下降,尤其是在高錯誤率參與者中,表現(xiàn)得尤為顯著;
圖5b展示了個性化數(shù)據(jù)量對模型性能的影響。實驗結(jié)果表明,隨著個性化數(shù)據(jù)量的增加(從1分鐘到20分鐘不等),字符錯誤率(CER)顯著降低,表明個性化微調(diào)可以有效改善模型在實際任務(wù)中的表現(xiàn)。圖中使用虛線擬合的“冪律關(guān)系“顯示,數(shù)據(jù)量的增加與模型性能提升之間存在冪律增長的關(guān)系;圖5c進(jìn)一步展示了個性化微調(diào)在減少離線CER方面的表現(xiàn),實驗結(jié)果表明,個性化微調(diào)可大幅度降低CER,尤其在數(shù)據(jù)量較大時,性能提升尤為顯著;
圖5d展示了個性化微調(diào)對于訓(xùn)練參與者數(shù)量和CER降低之間的關(guān)系,說明個性化微調(diào)可以彌補模型在大規(guī)模訓(xùn)練時可能存在的不足,且較少的數(shù)據(jù)量就能產(chǎn)生顯著的性能提升;圖5e展示了當(dāng)每個測試參與者使用20分鐘個性化數(shù)據(jù)微調(diào)時,CER的相對減少情況。圖中的綠色對角線表示通過個性化微調(diào)獲得的最佳性能提升;圖5f展示了個性化微調(diào)后的CER下降與初始模型CER之間的相關(guān)性。研究發(fā)現(xiàn),初始錯誤率較高的參與者,從個性化微調(diào)中受益最大,性能提升也更加顯著。
更重要的是,研究人員對解碼網(wǎng)絡(luò)的中間層進(jìn)行了可視化分析,發(fā)現(xiàn)該網(wǎng)絡(luò)能夠自動從原始的sEMG信號中學(xué)習(xí)到具有生理意義的時空模式,且其濾波器響應(yīng)與真實的MUAP信號高度匹配(如圖6)。這種從神經(jīng)電信號中提取生理特征的能力,為深度學(xué)習(xí)模型在非侵入式神經(jīng)接口任務(wù)中的成功應(yīng)用奠定了基礎(chǔ)。
圖6. 提取和驗證推測的單肌纖維動作電位(MUAPs)
圖6a-b為誘發(fā)推測的MUAPs,實驗參與者依照一系列指令執(zhí)行各種低強度的肌肉收縮,并在每次收縮后進(jìn)行短暫的休息期。在每個收縮期和休息期內(nèi),參與者都能夠通過視覺反饋觀察其肌電圖(EMG)的原始信號,從而幫助他們產(chǎn)生稀疏且空間集中的肌電信號。具體來說,圖6a展示了休息時期的EMG信號,而圖6b則展示了運動期間的EMG信號。每個運動周期持續(xù)10秒,并且每個周期重復(fù)3次。圖中的灰色垂直標(biāo)尺表示20μV,用于指示肌電信號的振幅。通過在每個通道的高通濾波EMG信號上進(jìn)行峰值檢測,研究人員能夠識別并提取MUAPs。這些MUAPs被用于構(gòu)建時間序列,進(jìn)而計算其瞬時發(fā)放率,通過事件的間隔時間(ISI)反算。圖6c顯示了不同運動(如:食指屈曲(IF)、中指屈曲(MF)、小指伸展(PE)、拇指外展(TAb)、拇指伸展(TE)、腕部旋前(WP))的平均瞬時發(fā)放率,計算方式為在每個提示的休息或運動周期內(nèi),檢測到的MUAP數(shù)量除以該周期的總時長。圖6d展示了每次運動期間發(fā)放率的變異系數(shù)(CoV),該系數(shù)表示肌電信號中事件間隔的標(biāo)準(zhǔn)差與均值之比。通過計算變異系數(shù),研究者能夠量化每次運動期間的神經(jīng)活動的穩(wěn)定性。
圖6e展示了在各個運動周期中提取的多通道MUAP波形。這些波形代表了在運動過程中誘發(fā)的單肌纖維動作電位。為方便可視化,所有波形都進(jìn)行了標(biāo)準(zhǔn)化處理,使得每個MUAP的最大絕對值歸一化到99.95百分位。圖中細(xì)線代表單次MUAP波形,而粗線則是每個運動類別的MUAP波形的中位數(shù),長度為20ms。垂直標(biāo)尺表示20μV。圖6f顯示了每個運動的MUAP空間分布,該空間分布是通過每個通道波形的峰-峰值構(gòu)建的。圖中的實線代表均值,而陰影區(qū)域表示標(biāo)準(zhǔn)誤差。這些空間分布圖顯示了MUAP信號的空間模式,表明不同運動對應(yīng)不同的神經(jīng)活動模式。
這一系列的實驗表明,Meta的肌電信號解碼系統(tǒng)已經(jīng)具備了實際應(yīng)用的能力,能夠在復(fù)雜的互動任務(wù)中,實時、穩(wěn)定地解碼肌電信號,并實現(xiàn)閉環(huán)控制。系統(tǒng)不僅能在實驗室環(huán)境中表現(xiàn)出色,實際應(yīng)用中也能做到精準(zhǔn)、高效,展示了其在虛擬現(xiàn)實、移動計算、智能設(shè)備以及輔助技術(shù)等多個領(lǐng)域的潛力。
未來展望:無縫連接,超越人類與機器的界限
與以往依賴侵入式設(shè)備或特定個體調(diào)試的腦機接口相比,本研究首次在非侵入式的肌電接口上實現(xiàn)了出色的跨人群泛化性能,代表著人機交互和腦機接口技術(shù)發(fā)展的重要突破。因此,這項技術(shù)代表了“人類與計算機更直接的連接”這一夢想的實現(xiàn)。未來,我們可能不再依賴鼠標(biāo)、鍵盤、觸摸屏,甚至語音助手,而是直接通過肌肉信號與計算機互動。在VR/AR設(shè)備中,肌電接口將取代現(xiàn)有的手柄控制,實現(xiàn)更加自然的動作捕捉和虛擬交互。對于肢體受限的用戶,肌電解碼模型將成為無障礙輸入的利器,大大提升殘疾人士的生活質(zhì)量。未來的智能手表、眼鏡等設(shè)備,或許會直接內(nèi)置這種技術(shù),作為主流的交互方式。這一切的實現(xiàn),意味著我們將突破人與機器的傳統(tǒng)界限,迎接一個充滿可能性的未來,在這個未來中,思想與行動的邊界將不再存在,一切都能通過最自然的方式與科技對話。
原文鏈接
Kaifosh, P., Reardon, T.R. & CTRL-labs at Reality Labs. A generic non-invasive neuromotor interface for human-computer interaction. Nature (2025).
https://doi.org/10.1038/s41586-025-09255-w
研究團隊介紹
研究團隊隸屬于Meta的Reality Labs,通訊作者為Thomas Reardon,他是CTRL-labs的首席執(zhí)行官及聯(lián)合創(chuàng)始人。在CTRL-labs被收購后,Thomas Reardon目前領(lǐng)導(dǎo)著Meta Reality Labs的神經(jīng)接口小組。第一作者為Patrick Kaifosh,CTRL-labs的聯(lián)合創(chuàng)始人,現(xiàn)任Meta Reality Labs的首席科學(xué)家。
關(guān)于維拓啟創(chuàng)
維拓啟創(chuàng)(北京)信息技術(shù)有限公司成立于2006年,是一家專注于腦科學(xué)、康復(fù)工程、人因工程、心理學(xué)、體育科學(xué)等領(lǐng)域的科研解決方案供應(yīng)商。公司與國內(nèi)外多所大學(xué)、研究機構(gòu)、企業(yè)長期保持合作關(guān)系,致力于將優(yōu)質(zhì)的產(chǎn)品、先進(jìn)的技術(shù)和服務(wù)帶給各個領(lǐng)域的科研工作者,為用戶提供有競爭力的方案和服務(wù),協(xié)助用戶的科研工作,持續(xù)提升使用體驗。
相關(guān)產(chǎn)品
