2008年4月18日 星期五

語音辨識: Google也做不到的影片內容搜尋技術


網路上分享的影片多到看不完,在YouTube,只要關鍵字下得好,要找到一百部影片是很簡單的,但是要如何搜尋到正確的影片?如果沒有正確的關鍵字,或是影片題目就是不對,甚至你只是在電視上匆忙看到幾秒鐘的片段,要如何找到正確的影片呢?

影片也能拿來搜尋

許多人習慣有問題時,先去拜一下Google大神。Google強大的文字搜尋能力,可以在茫茫網海中找到關鍵字,進而指出有用的網頁。但 是對於存在於網路的影片, Google就很難使上力,除了檔名與其他的文字介紹外,Google根本沒什麼用,就算回報了一個網址,檔名看起來相當符合,但長達十數分鐘的內容,你 又怎麼知道想看的片段在哪一分鐘呢?先不提網路夠不夠快的問題,要把每部片子都看完已經是很辛苦的事了。

怎麼讓搜尋引擎也可以找影片,就像我們用Google找文字資訊一樣精確,這是個很有趣,或者說,這是個非常有「錢」途的問題。想像一下, 未來每個人的手機都可以攝影,還可以立即上傳到部落格,每天新增的分享影片可能有幾百萬部,比文字資訊還多,誰能精確搜尋這些內容,就是下一個 Google。

利用聲音搜尋影片內容

針對這問題,大家的解決方法都不同,但目前最成功的,應該是利用語音辨識技術。例如美國波士頓的EveryZing公司,他們的技術在讀取 影片後,將影片中的聲音轉換為文字,然後記錄在資料庫中。所以你只要打入關鍵字,電腦便在資料庫中搜尋文字資訊,而非搜尋影片的圖像,找到後再將影片連結 交還給你檢視。這方法的好處很明顯,只要字串對了,搜尋影片內容無往不利。國內很多考生會在家中用補習班提供的錄影帶溫習功課,如果輔以這個技術,考生遇 到不懂的地方,只要在電腦內輸入關鍵字,便可以看到所有錄影帶中的相關講解,如果想不起講課內容,只要回想起老師曾講過某個笑話,輸入笑話內的關鍵字,也 可以找到前後的影片片段,實在是非常方便。

語音辨識技術仍難達成百分之百準確

但這技術的優點也是缺點,既然是搜尋影片中語音所轉換的文字,如果辨識錯誤該怎麼辦?事實上,語音辨識只是個發展了幾十年的技術,也一直還 有改善空間;而且大部分的語音辨識技術,都是針對某一種語言所開發的,如果要針對全世界的使用者,上百種語言與數萬種口音的隔閡,讓語音搜尋簡直成為不可 能的事情。

影片內容搜尋與廣告行銷

電腦對於精確的事情很在行,1+1=2不會出錯,但是模糊的事情就要依靠人類。一杯水加一壺水等於什麼?各位讀者的答案再怎麼急轉彎,也比 電腦的「Syntex Error格式錯誤」好得太多了。語言本身就是一個很模糊的東西,連發音也很模糊,人跟人講話都有可能聽錯了,所以不能期待電腦完全正確抄寫影片中的對 白。

EveryZing公司說,這技術不止用在搜尋上,還能抄錄整部電影的對白;也就是說,你可能知道周星馳在電影中將蟑螂取名為「小強」,但 是哪一部電影呢?使用這技術,只要在他的電影中蒐集「小強」兩個字,不但可以知道是哪一部電影,連在幾分幾秒說的都能知道。如果搭配夠強大的翻譯軟體,可 以先把各國的影片各自抽出該國語言對白,再翻譯成中文或其他文字,就可以把搜尋範圍擴大到網路上各種語言的影片。

除了EveryZing,Blinkx公司也使用語音技術搜尋影片內容,不過方法稍有差異。曾使用Google的人都知道,Google會 從你找的網頁內容,決定提供什麼樣廣告給你參考;而這種針對特定使用者的廣告方式,也著實讓Google賺翻了。Google在影片搜尋方面也是一樣,藉 由影片的檔名與關鍵字置入廣告,問題是YouTube的許多影片根本沒什麼可用的關鍵字,所以廣告往往沒有命中目標。Blinkx則會分析影片內容,據他 們的說法,不只是語音而已,還包括影片視訊,然後根據這些內容決定要插入什麼廣告,使得廣告效率應該會比Google的文字搜尋好多了。

其他可能的搜尋方式

可能有人會問說,為什麼不用影像識別技術進行影片搜尋呢?其實這是個很棒的方法,想像一下,你想找台北101的影片,所以在網路上挑選一張 台北101的照片,電腦便能掃瞄所有的影片,找出裡面有相似台北101的影片片段,並回報超連結給你瀏覽。更甚者,你只要輸入「101」,電腦便猜出你想 找哪些影片。

圖片與影片辨識的實作困難度極高

那為什麼不這樣做?因為目前辦不到啊!在電腦科學中,想在一張圖片中找到一條直線,就要用到一些演算法,從各個角度,各個方向去尋找可能是 線條的東西,而且需要的計算時間還蠻長的,別人的文字搜尋程式已經掃瞄完成整個文字檔,圖片比對程式卻剛準備好資料而已,況且一段影片是由許許多多的圖片 所構成,這又將影片比對程式的難度乘上很多倍。

說到這個,我們不得不讚嘆自然界的奇蹟,每一個人都是一個了不起的工程成就。當你看到一張圖時,不用人家教,馬上就能辨識這張圖內有沒有台 北101的影像,不必學習什麼類神經演算法、模糊理論,Hough Transform等數學多到想燒課本的技術,反正就是可以在一閃而過的影片中,找到有興趣的資訊。

前途無限技術有待突破

大致來說,資料搜尋的速度是以文字最簡單,然後是語音,圖片又更難。由於影片是由圖片構成的,在影片中尋找物體,困難度將是好幾倍,而在連 續影片中識別出某個動作,更是乾脆坦承「辦不到」比較快。如果電腦可以知道影片中出現什麼資訊代表「偷東西」的動作,那光是賣給全世界的商店就賺到翻了。

微軟前總裁Bill Gates曾勸學生多研習電腦科學,因為有太多的技術等待開發,而其中許多離實現夢想的日子還非常遙遠,需要很多優秀的人才持續投入。就如我們這邊所說 的,在眾多影片中搜尋有用的片段,目前只是個還不成熟的技術,不論是Blinkx或EveryZing,或者其他正在各頂尖機構研究的相關技術,其實都離 真正的解決方法還有很大差距。建議讀者們不妨試用一下前述這些影片搜尋網站,也許會對於下一代的網路搜尋引擎有更多想法。

沒有留言: