
上圖中科院自動化所生物識別與安全技術研究中心主任、博導李子青
2010年8月18-19日,第七屆高峰論壇(CDTF2010)在北京隆重開幕。
李子青:大家好,剛才趙總從宏觀角度對物聯(lián)網(wǎng)進行了解讀,我就物聯(lián)網(wǎng)是什么東西再做一個解釋,特別是以一個實例說明我們物聯(lián)網(wǎng)究竟是什么,跟咱們的生活,特別是跟咱們今天數(shù)字電視的主題三網(wǎng)融合這塊,如何利用現(xiàn)有架構實現(xiàn)一個應用,并且把這個應用用到高端的比如說公共安全領域當中去。
我今天演講主要涉及這樣幾個方面,首先我要解釋一下基于視覺的,面向視覺感知、傳感和理解的所謂的智能視覺物聯(lián)網(wǎng),我要介紹一下智能視覺物聯(lián)網(wǎng)當中核心技術,特別是智能標簽系統(tǒng),然后要以一個三網(wǎng)合一的應用系統(tǒng)為例說明物聯(lián)網(wǎng)特別是視覺物聯(lián)網(wǎng)如何在現(xiàn)有平臺上取得一些應用。
關于物聯(lián)網(wǎng)是什么東西?我們國家參照了歐盟的和IBM的概念,這個圖是從歐盟翻譯過來的圖,物聯(lián)網(wǎng)有幾個層面,首先最底層是傳感器,各式各樣的傳感器,包括濕度、溫度、壓力、RFID,我特別強調(diào)的是視覺傳感。第二層就是這些傳感信息信號通過一些數(shù)據(jù)傳輸設施平臺進行相互之間的連接和傳輸。第三步是也各種各樣傳感信息和信號的信息處理,最后是處理后的理解后的信息的應用。
什么是智能視覺物聯(lián)網(wǎng)呢?視覺物聯(lián)網(wǎng)顧名思義就是前端傳感器是由圖象和視頻傳感器構成,這個東西非常重要,比如在人大腦皮層中有相當大一部分,超過一半大腦皮層是用于視覺感知的,我們認為視覺感知是我們認識周遭世界的途徑,所以我認為視覺物聯(lián)網(wǎng)在物聯(lián)網(wǎng)當中應該是起著非常重要的作用。對于通用的視覺物聯(lián)網(wǎng)也有四個層面,首先是視覺傳感,第二是數(shù)據(jù)傳輸,第三是智能信息處理與理解識別,第四是應用。它的主要特點就是利用各類視覺傳感器來獲得周圍我們感興趣的圖象和視頻,包括手持設備,包括網(wǎng)絡攝象頭,包括監(jiān)控攝象頭,包括數(shù)碼相機,甚至包括網(wǎng)絡上各種各樣圖片,都是我們獲得圖象和視頻信息的來源。其中一個重要的核心技術就是所謂的視覺標簽的提取與利用,我們知道RFID有RFID的標簽,什么是視覺標簽呢?就是對圖象和視頻當中的內(nèi)容進行識別、理解和分類。目前應用當中最主要的有三個大類,首先是對人這樣一個標簽的理解,比如人的身份,其次是對車,比如車牌、車型,還有各種各樣的物件,包括超市,包括生活當中各種各樣的物件,比如一幅畫,就是人車之外的物件。
智能視覺物聯(lián)網(wǎng)重要的就是對人車物貼視覺標簽,這個也是類比于RFID這樣一個標簽來的,我們要通過各種各樣的傳輸網(wǎng)絡,對數(shù)據(jù)進行傳輸,這些網(wǎng)絡包括無線網(wǎng)、因特網(wǎng)、視頻網(wǎng)。通過網(wǎng)絡的傳輸與信息處理與分析,建立起跨傳感器,跨攝像機,跨時間、跨空間的視覺標簽的提取與他們的關聯(lián)。他們的關聯(lián)是網(wǎng)絡狀態(tài)下非常重要的特點。如果我們對某一路的監(jiān)控攝像進行分析的話,還沒有形成一個網(wǎng)絡的力量,只有在我們對跨一個大范圍的視覺信息進行綜合識別與融合,與挖掘之后,才能顯示出這個物聯(lián)網(wǎng)的作用。
剛才我提到傳輸,今天我們會議主題之一是三網(wǎng)融合,三網(wǎng)融合其實是對數(shù)據(jù)進行傳輸?shù)钠脚_。如何利用各種各樣的網(wǎng)絡,各種各樣的終端,包括移動終端,固定終端以及視頻終端進行這樣一個信息的處理加工與利用,是我們視覺物聯(lián)網(wǎng)所要解決的一個重要的問題。
現(xiàn)在再說一下視覺物聯(lián)網(wǎng)當中的一個核心技術,就是用視覺理解的手段給人車或者其他物件貼標簽。比如說給人貼標簽,給車貼標簽,給物貼標簽,這個標簽包含各種各樣的物件的屬性,包括它的名稱、它的ID,它的顏色,它的身份,它的發(fā)生的地點,以及各種各樣的屬性。我們要利用視覺理解或者圖象處理與計算機視覺的技術手段完成實現(xiàn)這樣一些功能。視覺標簽與RFID標簽的區(qū)別是什么呢?RFID距離是比較近的,比如刷一個門卡,或者車上有一個RFID一個天線,我們要收費,或者RFID會被別人用,利用視覺標簽可以在更遠距離對物體進行識別,這是視覺標簽和RFID標簽之間最顯著區(qū)別,打破了距離和范圍的限制,并且在多個物體同時出現(xiàn)的時候不會出現(xiàn)混淆,因為每個物體應該有一個唯一標簽。這個標簽是比較虛擬化的標簽,他會把這些標簽,我們對這些物體,對人車物提取標簽之后,會把信息存儲到數(shù)據(jù)庫。
從他的應用來講,我們可以根據(jù)標簽的屬性對視覺物聯(lián)網(wǎng)的應用進行分類,比如面向人的視覺標簽系統(tǒng),他一個最典型的應用就是人臉識別或者是人口管理、身份管理。面向車的視覺標簽的系統(tǒng)的應用就是智能交通,識別車牌、車型以及車的速度,以及他是不是違反交通規(guī)則。對其他物件標簽的應用就應用更廣了,比如我們超市每一個物件都會有一個標簽。所以,他的應用會包括身份識別,門禁系統(tǒng),社保身份識別,銀行帳戶管理,還有電子商務,網(wǎng)絡購物等等。智能交通就是交通指揮、車輛違章檢測,路口信息監(jiān)測等等,還有其他物件標簽,比如在博物館會用一些監(jiān)控攝象頭對展品進行監(jiān)控。
下面通過一個實例來說明,剛才大家談到物聯(lián)網(wǎng)的時候,更多是從宏觀角度,從這樣一個設想的角度來談這樣一些架構,其實這個東西可以利用現(xiàn)在的技術應用。我重要講解的一個實例就是三網(wǎng)融合的人臉識別,什么是三網(wǎng)融合呢?我也是借助廣電系統(tǒng)的這個詞,但是它確實是包括了電信網(wǎng)、互聯(lián)網(wǎng)、最后一個電視網(wǎng)我們稍微有點不一樣,視頻網(wǎng)指的是監(jiān)控視頻網(wǎng)絡。這樣跟廣電系統(tǒng)的三網(wǎng)融合大部分是重合的。
電信網(wǎng)是把電信網(wǎng)這樣一個平臺作為手持設備的傳輸渠道,互聯(lián)網(wǎng)可以是無線的,也可以是有線的,把互聯(lián)網(wǎng)作為一個固定終端的傳輸起到,視頻網(wǎng)把視頻信號通過有線和無線方式進行傳輸。所以,這樣一個系統(tǒng)綜合了移動終端、固定終端和視頻終端實現(xiàn)人的視覺標簽系統(tǒng),對人的身份進行識別。這樣的話,從結構來看,我們可以有手持終端,可以有電腦終端,也可以有攝象頭,通過無線、有線傳輸,進行視覺處理服務器進行視覺標簽提取和識別。最后,我們會把分析的現(xiàn)場結果,不管是用手機傳輸?shù)囊曈X圖片或者是通過固定終端進行網(wǎng)絡上傳得到的圖片,或者是從監(jiān)控視頻提取的檢控視頻,從當中提出的人車物的信息,與目標數(shù)據(jù)庫進行對比,進行進行識別。識別之后,如果我們發(fā)現(xiàn)了跟興趣的人,一些目標人,或者有什么狀況的話,我們會做一個提示報警信號。剛才趙總也說了有一個反饋過程,他提到現(xiàn)在由于各種技術的限制,現(xiàn)在不能做到全自動的反饋,但是至少能夠幫助人來做一個決策。所以,我們把這個報警信號只是信號的提示,或者某種意義上自動信號,比如你要開門禁的話,這個完全做到識別是沒有問題的。
我今天早上過來的時候,昨天晚上我把包冉的照片從網(wǎng)上扒下來送到系統(tǒng),系統(tǒng)服務器在中科院,今天我在一樓大廳給包總拍了一個照片,這個照片就把數(shù)據(jù)庫的幾張照片識別出來了。其實這個數(shù)據(jù)庫在什么地方是沒有任何關系的,因為現(xiàn)在有無線網(wǎng),我這個是用全球通,也可以用3G,我馬上就要去國外訪問,我會把國外參會的人員,像今天一樣,把他們照片從網(wǎng)絡扒下來放在北京服務器,我會在國外給他們做這個演示。值得指出的就是像這樣一個系統(tǒng),手持式人臉識別系統(tǒng),特別是三網(wǎng)融合三臉識別系統(tǒng)在國際上是沒有的。所以,我們中國在這方面的技術應該是已經(jīng)達到了國際先進水平,特別是我們已經(jīng)在北京奧運、上海世博以及深圳邊檢通關上,以及最近幾年在天安門安防上面取得實質(zhì)應用。但是三網(wǎng)融合人臉識別是我們剛剛做出來的。
面向更廣泛的,包括車輛和物件的視覺標簽系統(tǒng),我們可以把人車物視覺標簽綜合起來,能夠拓展到其他領域。這個架構其實就是我剛才說的幾個架構,首先是傳感層,然后是傳輸層,然后是信息處理層,然后是綜合應用層,這樣四層的架構。我剛才提到只有把網(wǎng)絡力量實現(xiàn)起來之后,才能體現(xiàn)出這個網(wǎng)的價值,我剛才說的視覺標簽分析,或者說是視覺標簽的提取,如果只是單路的話,它的作用是比較有限的。如何把這個在大范圍內(nèi)實現(xiàn)出綜合視覺標簽內(nèi)容的挖掘與關聯(lián)呢?一個例子就是流動人群行蹤挖掘,這個也是從公共安全實際應用中提出來的。假設我們有很多攝象頭在各個地點部署,每一個攝象頭都對流動人群進行視覺標簽提取,識別他的身份,這些攝象頭分析的視覺標簽信息送到一個中央服務器,我們可以把在不同時間、地點和跨攝像機提取出來的人物從這個數(shù)據(jù)庫當中進行關聯(lián)和挖掘,從而分析出流動人群的行蹤,這樣就更能體現(xiàn)視覺物聯(lián)網(wǎng)的價值。目前的核心技術已經(jīng)用到了北京奧運,用到了上海世博,用到了邊檢通關,包括深圳和珠海和北京T3航站樓,大家出入境的時候可以看到兩邊有這樣一個閘機。另外剛才提到在北京天安門,從去年國慶節(jié)開始實施,也是對流動人群進行監(jiān)控。
最后總結一下,視覺感知是物聯(lián)網(wǎng)應用當中一個非常重要的部分,視覺標簽系統(tǒng)是視覺物聯(lián)網(wǎng)的核心技術所在,通過三網(wǎng)融合,我們可以實現(xiàn)視覺物聯(lián)網(wǎng)的應用,就是物聯(lián)網(wǎng)的應用并不僅僅是停留在現(xiàn)在這樣一個框架的描述上面,我們已經(jīng)把它變成了一個現(xiàn)實,物聯(lián)網(wǎng)的應用的話,剛才趙總說是從高端向低端輻射,現(xiàn)在我們主要是應用在高端,包括公共安全,智能交通,人口管理等等一些方面。隨著這個技術不斷進步,隨著這個成本的不斷降低,我相信他會滲透到我們生活的方方面面。謝謝大家!