2015年 12月,谷歌發布了其云視覺API,來執行這些任務,如:識別人臉、標志和文字,探測物體并了解其環境的應用。一些客戶都對這些功能感到非常興奮,在市場上其它企業也正在尋找類似的一種服務,為使其適應其業務模式。
機器為什么需要視覺呢?視覺是主要的感官。機器要能夠理解人類,提供他們所需的支持,那么它們必須能夠在視覺范疇進行觀察和表現。這可能是一個小攝像頭的形式,可以幫助盲人去“看”和感受環繞他們周圍的世界。或者是一個家庭監控系統,該系統能夠正確識別一群流浪貓之間的差異,或者移動樹枝,和一個防盜的形式。
在過去的一年中,圍繞著人工智能的嗡嗡聲,一直在非常強勁的增長。我們還從來沒有如此接近的觀察到這個技術的好處。2016年,將會看到新式的人工智能的供電設備,因為我們對于人工智能,所面臨的最困難的挑戰之一,已經取得了進展:讓我們的設備,能夠了解它們所看到的。
在我們的日常生活中,由于設備逐漸成為我們不可分割的一部分,我們已經看到如果沒有足夠的視覺能力,越來越多的應用程序將走向失敗,其中包括空中無人機碰撞和機器人吸塵器“吃”了它們本不應該吃的東西。
機器視覺是人工智能正在快速發展的一個分支,旨在賦予機器可媲美人類的視覺。隨著研究人員應用專門的神經網絡來幫助機器識別和理解現實世界的圖像,機器視覺在過去幾年取得了巨大的進步。如今的計算機在視覺識別上能夠做到各種各樣的事情,從識別網絡上的貓到在諸多的照片中識別特定的面孔。不過,該類技術還有很長的路要走。今天,我們看到機器視覺能夠離開數據中心,并適用于一切從自主無人機到機器人身上,可以整理我們的食物。
為了更好的了解機器人視覺,一個常見的類比,機器人視覺與人類自己的視覺,就好比天空中飛行的鳥類與飛機。兩者最終都將依賴于基礎物理學(如伯努利原理),來幫助它們飛入到高空中,但是,這并不意味著飛機將要扇動它的翅膀進行飛翔。只是因為人與機器可能會看到同樣的東西,并且對這些圖像進行解釋的方式,甚至可能有一定的共性,最后的結果仍然可能是具有很大的不同。
雖然基本的圖像分類已經變得更加容易,但是,當它涉及到從抽象的場景中提取意義和信息時,機器人就面臨著一系列新的問題。錯覺就是一個很好的例子,機器人視覺仍然還有很長的路要走。
舉例來說,當人看到兩張面對面的臉的輪廓圖像時,他們看到的不僅僅是抽象的形狀。他們的大腦會進行進一步的解讀,讓他們能夠識別圖像的多個部分,看到兩張臉,又或者看到一個花瓶。但對于機器來說,這樣的圖像是非常難以理解的。基本的分類器分辨不了兩張臉和花瓶,它看到的會是諸如短柄斧、吊鉤、避彈衣甚至吉他的物體。該系統并不能確定那些物體是在該圖像當中,這說明這類圖像的識別對于機器而言極具挑戰性。