機(jī)器人將在安防等領(lǐng)域展神威 動(dòng)一動(dòng)就認(rèn)清你
近日,谷歌發(fā)布AVA (Atomic Visual Actions)數(shù)據(jù)庫(kù),由YouTube公開(kāi)的視頻集組成,這些視頻可以用80個(gè)原子動(dòng)作進(jìn)行標(biāo)注,例如走路、握手、踢東西等,所有動(dòng)作具有時(shí)空定位,累計(jì)有5.76萬(wàn)個(gè)視頻片段,9.6萬(wàn)個(gè)人類動(dòng)作,以及21萬(wàn)個(gè)動(dòng)作標(biāo)簽。谷歌稱,此次發(fā)布的AVA技術(shù)將幫助谷歌分析多年的視頻,還能幫助廣告商更好地瞄準(zhǔn)消費(fèi)者。他們的最終目標(biāo)是教計(jì)算機(jī)社交視覺(jué)智能化,即“理解人類在做什么,下一步該做什么,以及他們想要實(shí)現(xiàn)什么目標(biāo)?!?/a>
目前,國(guó)內(nèi)一些科研院所和企業(yè)也已經(jīng)在行為識(shí)別相關(guān)領(lǐng)域進(jìn)行重點(diǎn)投入,以解決視頻監(jiān)控?cái)?shù)據(jù)理解這一瓶頸問(wèn)題,但要達(dá)到讓機(jī)器通過(guò)行為“理解”人類這個(gè)最終目標(biāo),還需要很多努力?!澳壳埃梭w行為識(shí)別大多還處在動(dòng)作識(shí)別階段,對(duì)于實(shí)際應(yīng)用而言,識(shí)別人的動(dòng)作,還是一個(gè)巨大的挑戰(zhàn)?!?1月8日,濟(jì)南大學(xué)模式識(shí)別與智能系統(tǒng)研究所所長(zhǎng)李金屏教授告訴科技日?qǐng)?bào)記者。動(dòng)一動(dòng),機(jī)器就能發(fā)現(xiàn)你?有關(guān)專家表示,現(xiàn)階段,這是一件“可以有”的事。
應(yīng)用:安防等領(lǐng)域大展神威
李金屏告訴記者,動(dòng)作識(shí)別可以看成是特征提取和分類器設(shè)計(jì)相結(jié)合的過(guò)程。養(yǎng)老院中,如果出現(xiàn)老人摔倒,行為識(shí)別系統(tǒng)可以立刻向工作人員發(fā)出警報(bào),甚至直接與醫(yī)院進(jìn)行聯(lián)系;黑科技滿滿的《碟中諜5》,安保系統(tǒng)的最后一道防線是步態(tài)識(shí)別……盡管技術(shù)難點(diǎn)重重,行為識(shí)別目前仍然在相關(guān)領(lǐng)域獲得了應(yīng)用。
浙江大學(xué)人工智能研究所所長(zhǎng)吳飛教授告訴記者,這項(xiàng)最早被蘋果和微軟應(yīng)用于游戲的技術(shù),還在公檢法(在押人員審訊看護(hù))、電力(風(fēng)力發(fā)電、國(guó)家電網(wǎng)的安全生產(chǎn))、銀行(業(yè)務(wù)區(qū)域智能安防)、醫(yī)院(病人狀態(tài)監(jiān)護(hù))等多個(gè)場(chǎng)景有更廣的應(yīng)用空間。尤其在安防等領(lǐng)域,以行為識(shí)別為基礎(chǔ)的應(yīng)用更廣泛。
比如通過(guò)人的走路方式來(lái)識(shí)別身份的步態(tài)識(shí)別,雖然屬于身份識(shí)別,但是也是行為識(shí)別和身份識(shí)別的一種有效交叉。步態(tài)識(shí)別是一種通過(guò)人們走路姿態(tài)進(jìn)行的身份識(shí)別,分為人形檢測(cè)、分割、識(shí)別、跟蹤四個(gè)部分,而這些部分最具挑戰(zhàn)的環(huán)節(jié)都離不開(kāi)以行為識(shí)別為基礎(chǔ)的研究。
在近年來(lái)尋找失蹤人口和嫌犯追逃的工作中,步態(tài)識(shí)別已經(jīng)發(fā)揮了不小的作用?!稒C(jī)智過(guò)人》節(jié)目中,銀河水滴科技成功通過(guò)步態(tài)識(shí)別現(xiàn)場(chǎng)“嫌疑人”,加大難度后,還靠步態(tài)識(shí)別出狗的剪影。
銀河水滴科技創(chuàng)始人兼CEO黃永禎說(shuō),通過(guò)步態(tài)識(shí)別來(lái)實(shí)現(xiàn)異常行為分析,這是步態(tài)識(shí)別相比于其他生物特征識(shí)別的重要優(yōu)勢(shì)之一。異常行為的應(yīng)有之義就包括可以通過(guò)視覺(jué)觀察目標(biāo)體形和動(dòng)作狀態(tài),來(lái)發(fā)現(xiàn)是否有異常行為,通常會(huì)涉及到目標(biāo)檢測(cè)、分割、關(guān)鍵點(diǎn)定位、識(shí)別、跟蹤等技術(shù)環(huán)節(jié),而這些技術(shù)環(huán)節(jié)也是步態(tài)識(shí)別的核心底層技術(shù)。目前,他們已能很好地完成遠(yuǎn)距離非受控模式識(shí)別。
難點(diǎn):定位、跟蹤、場(chǎng)景步步為艱
“行為識(shí)別的難點(diǎn),首先表現(xiàn)為從連續(xù)視頻流中對(duì)人體運(yùn)動(dòng)的定位難、追蹤難。”吳飛說(shuō),在視頻行為識(shí)別中,要找到一個(gè)連續(xù)動(dòng)作的起點(diǎn)和終點(diǎn),即將連貫動(dòng)作從視頻流中定位出來(lái),在視頻識(shí)別中是非常困難的。而在找到某個(gè)連貫動(dòng)作的起點(diǎn)后,對(duì)這個(gè)動(dòng)作進(jìn)行魯棒跟蹤也比較困難。比如一個(gè)跳躍動(dòng)作,要實(shí)現(xiàn)追蹤動(dòng)作持續(xù)展開(kāi)的過(guò)程就不容易,還要考慮場(chǎng)景的復(fù)雜性以及背景動(dòng)態(tài)變化或者攝像頭晃動(dòng)等因素。
不僅如此,場(chǎng)景識(shí)別也是一大難點(diǎn)。首先,即使是同一類動(dòng)作,在不同時(shí)刻、不同場(chǎng)景也具有很大差異性。吳飛舉例說(shuō),比如不同的人在不同時(shí)刻行走,速度、姿態(tài)和場(chǎng)景遮擋等方面都有差異。不同類別動(dòng)作之間更是如此。李金屏表示,“與靜態(tài)對(duì)象不同,動(dòng)作會(huì)隨著時(shí)間的推移而展開(kāi),會(huì)有更多不確定因素?!北热缫环说摹芭懿健闭掌?,實(shí)際上有可能只是這個(gè)人在跳躍的動(dòng)作,只有看到更多畫面,才有可能清楚地知道到底發(fā)生了什么??梢?jiàn)人在場(chǎng)景中的動(dòng)態(tài)是多么復(fù)雜。因此某一動(dòng)作的識(shí)別方法很難直接用在另一動(dòng)作的識(shí)別上?!耙粋€(gè)動(dòng)作,人類辨識(shí)兩三遍就可以了,但要讓機(jī)器記住并識(shí)別,則需要大量的訓(xùn)練數(shù)據(jù)?!崩罱鹌琳f(shuō)。
此次谷歌發(fā)布的AVA與其他數(shù)據(jù)集相比,通過(guò)在相關(guān)場(chǎng)景中提供具有精細(xì)時(shí)空粒度的多個(gè)標(biāo)簽,將極大推動(dòng)人們對(duì)于相關(guān)模型的深入研究,最終不但能夠?qū)崿F(xiàn)人的復(fù)雜活動(dòng)精確建模,還將進(jìn)一步獲得實(shí)際應(yīng)用。
展望:設(shè)備平臺(tái)、理論模型方興未艾
“在行為識(shí)別領(lǐng)域,中國(guó)未來(lái)五年、十年的發(fā)展后勁非常強(qiáng),建議在設(shè)備和平臺(tái)方面進(jìn)行攻關(guān),現(xiàn)在國(guó)內(nèi)好多團(tuán)隊(duì)的設(shè)備還是采用微軟等國(guó)外企業(yè)的設(shè)備和平臺(tái),希望國(guó)家在這方面給予一定的支持和政策引導(dǎo)?!崩罱鹌琳f(shuō)。
在吳飛看來(lái),中國(guó)的科研團(tuán)隊(duì)和企業(yè)還應(yīng)該在理論模型、數(shù)據(jù)驅(qū)動(dòng)等基礎(chǔ)理論方面進(jìn)行深耕?!耙粋€(gè)行為動(dòng)作的過(guò)程要經(jīng)歷多個(gè)狀態(tài)(對(duì)應(yīng)很多時(shí)間幀),人體在每個(gè)時(shí)刻也呈現(xiàn)出不同的姿態(tài),那么,是不是每一幀在動(dòng)作判別中的重要性都相同呢?對(duì)于行為動(dòng)作的判別,是不是每個(gè)關(guān)節(jié)點(diǎn)在動(dòng)作判別中都同等重要呢?這些都需要理論模型等基礎(chǔ)理論的完善?!眳秋w說(shuō)。