影像AI辨識感測時代來臨

影像AI辨識感測時代來臨
15 1 月, 2018 No Comments Uncategorized 管理員

在人工智慧(AI)關鍵技術加持下,影像辨識技術逐漸成熟,創新應用也不斷被發掘。未來,影像辨識除了持續拓展工業、醫療領域的應用,更有望在人臉辨識的引領下,打進民生應用市場。

人工智慧下的分支領域:深度學習(deep learning),發展在 1980 年代遭遇瓶頸,直到 2012 年多倫多大學AlexNet的深度網路結構獲得重大突破後,影像辨識技術逐漸成熟,2018 年 Google DeepMind 以更優化網絡,與英國眼科醫院合作標註上萬份視網膜掃描影像中的病變區,訓練的 AI 能正確辨識青光眼等疾病,早期測試錯誤率低於人類醫師,排定計畫用於臨床治療。在醫療場域累積大量影像與AI視覺技術進步下,兩者結合成近年熱門研究主題。

第三次AI浪潮則出現於2010年代,伴隨著高性能電腦、網際網路、大數據、感測器的普及,以及計算成本的下降,「機器學習」隨之興起。所謂機器學習(Machine leaning),是指讓電腦大量學習資料,使它可以像人類一樣辨識聲音及影像,或是針對問題做出合適的判斷。

Amazon、Google及Apple等大廠皆嗅到影像辨識的龐大商機,紛紛展開布局。目前,影像辨識已可實現人臉辨識、入侵者偵測、車牌辨識及排隊管理等功能,而隨著相關資源的投入與技術的演進,未來也將發展出更多創新的應用。

AI的三大技術

快速瞭解了AI的發展史後,我們來看看當代人工智慧的三大代表性模型:遺傳演算法、專家系統、類神經網路。

一、遺傳演算法

遺傳演算法(Genetic algorithm;GA),又稱為演化式演算法(Evolutionary algorithm),是受達爾文演化論所啟發的人工智慧。它透過「適者生存」的規則,將「優秀的個體」想像成「好的答案」,透過演化的方式來找出最佳解。

二、專家系統

專家系統(Expert system),則是針對預設的問題,事先準備好大量的對應方式。它應用在很多地方,尤其是疾病診斷。只不過,專家系統只能針對專家預先考慮過的狀況來準備對策,它並沒有自行學習的能力,因此還是有其侷限性。

三、類神經網路

從第三次AI浪潮所興起的機器學習(Machine learning)有許多種手法,其中最受矚目的,莫過於「深度學習」(Deep learning)了。所謂深度學習,是透過模仿人腦的「類神經網路」(Neural network)來學習大量資料的手法。

AI 的三大應用

AI應用領域主要可分為語音辨識、影像辨識以及自然語言處理等三部分。

一、語音辨識

語音辨識部分,透過多年來語音辨識競賽CHiME的研究,已經有了等同人類的辨識度(CHiME,是針對實際生活環境下的語音辨識,所進行評測的國際語音辨識競賽)。此外,Apple、Google、Amazon也相繼提出可應用於日常生活的服務,因此其成熟度已達到實用等級。

二、影像辨識

影像辨識部分,雖然一般圖片的辨識已有同等於人類的辨識率,但動態影像的辨識準確度卻仍比不上人類,目前還在進行各種演算法的測試。其中,影像辨識目前最火熱的應用場域非自動駕駛莫屬了。

整個汽車、資通訊產業都正朝著自駕車的方向努力,例如Google持續進行自動駕駛的研究,TOYOTA也在美國設立豐田研究所,可以知道現階段的開發已十分接近實用化。因此,我們可判斷目前影像辨識的成熟度是介在研究和實用等級之間。

三、自然語言處理

自然語言處理(Natural language processing;NLP),是試著讓人工智慧能理解人類所寫的文字和所說的話語。NLP首先會分解詞性,稱之「語素分析」(morphemic analysis),在分解出最小的字義單位後,接著會進行「語法分析」(syntactic analysis),最後再透過「語意分析」(semantic analysis)來瞭解含意。

影像辨識技術環節

影像辨識技術環節可分為感測(Sensing)、影像處理(Image Processing)、影像分析(Image Analysis)以及應用(Application)四個部分;在零組件方面則包括攝影機(Camera)、感測器(Sensor)以及處理器(Processor)等。而隨著影像辨識技術逐漸成熟,加上創新應用的發展,預估2018年影像感測器(CIS)的需求將達到45億至50億顆。

影像分析的價值在於其解決問題的能力,以及垂直應用的發展。工研院將2015~2017年之CPC專利家族(Patent Family)中 42,047 筆關於影像分析的資料進行統計,結果顯示影像分析技術主要用以解決圖像檢查、圖像分割、動態分析等問題;其應用領域則以生物醫學、車載應用、行動裝置以及工業領域為主。

圖1 影像分析技術主要解決的問題
資料來源:工研院IEK(5/2018)

三大3D影像感測技術齊頭並進

Apple iPhone X 搭載 3D 影像感測,使該技術備受矚目,也帶動影像感測技術快速拓展出眾多創新應用。工研院產經中心分析師謝孟玹指出,3D影像感測技術可分為三種,包括雙鏡頭(Stereo Camera)、結構光(Structured Light)以及飛時測距(Time of Flight, ToF)。這三者各有優勢,如iPhone X所選用的結構光技術,能達到最精確的偵測,除了可發展人臉辨識、行動支付這類近距離且講求高準確性的應用,亦可用於工業4.0,支援逆向工程的工件模擬。

不過,結構光的缺點為無法在亮度高的環境中進行偵測,而雙鏡頭正好能補足此缺點。雙鏡頭設計原理為模擬人類雙眼,透過物件反射周圍自然光及兩眼的視差判定與物體間的距離。其在明亮環境中表現佳,且相當省電,適合在戶外長期運作,目前已有許多無人機搭載雙鏡頭。但其缺點是需要高運算量、延遲性高且無法支援長距離的偵測。

在遠距離感測可使用ToF技術,ToF 主要原理為投射雷射或LED光源於待測物件,感測器會透過計算光反射的時間進行測距。其技術優勢是掃描速度快、低照度效果佳,缺點是精細度與分辨率較低。而ToF技術可運用在工廠中,以實現快速移動的協作機器人;或運用在物流業中,協助業者進行包裹盤點、尺寸測量等工作。

影像辨識進攻民生領域

隨著技術的演進,未來人臉辨識將全面進入食衣住行育樂等民生領域。Facebook、Amazon、Google、Microsoft 及百度等大廠相繼購併/結盟人臉辨識、AI公司,並開始布局相關專利技術。人臉辨識的應用範圍相當廣泛,除了可以用來進行失蹤兒童協尋、共享車服務的身分確認,也可以藉之進一步蒐集用戶習慣、行為以及情緒數據,應用於自閉症兒童治療、個人化廣告投放及精準行銷。

影像AI辨識、感測應用將開始大量的從重工業領域快速轉進民生應用領域,將形成另一股市場驅動力。

Tags
About The Author

Leave a reply