Telecom Trend: 語音辨識: Google也做不到的影片內容搜尋技術

網路上分享的影片多到看不完，在YouTube，只要關鍵字下得好，要找到一百部影片是很簡單的，但是要如何搜尋到正確的影片？如果沒有正確的關鍵字，或是影片題目就是不對，甚至你只是在電視上匆忙看到幾秒鐘的片段，要如何找到正確的影片呢？

影片也能拿來搜尋

許多人習慣有問題時，先去拜一下Google大神。Google強大的文字搜尋能力，可以在茫茫網海中找到關鍵字，進而指出有用的網頁。但是對於存在於網路的影片， Google就很難使上力，除了檔名與其他的文字介紹外，Google根本沒什麼用，就算回報了一個網址，檔名看起來相當符合，但長達十數分鐘的內容，你又怎麼知道想看的片段在哪一分鐘呢？先不提網路夠不夠快的問題，要把每部片子都看完已經是很辛苦的事了。

怎麼讓搜尋引擎也可以找影片，就像我們用Google找文字資訊一樣精確，這是個很有趣，或者說，這是個非常有「錢」途的問題。想像一下，未來每個人的手機都可以攝影，還可以立即上傳到部落格，每天新增的分享影片可能有幾百萬部，比文字資訊還多，誰能精確搜尋這些內容，就是下一個 Google。

利用聲音搜尋影片內容

針對這問題，大家的解決方法都不同，但目前最成功的，應該是利用語音辨識技術。例如美國波士頓的EveryZing公司，他們的技術在讀取影片後，將影片中的聲音轉換為文字，然後記錄在資料庫中。所以你只要打入關鍵字，電腦便在資料庫中搜尋文字資訊，而非搜尋影片的圖像，找到後再將影片連結交還給你檢視。這方法的好處很明顯，只要字串對了，搜尋影片內容無往不利。國內很多考生會在家中用補習班提供的錄影帶溫習功課，如果輔以這個技術，考生遇到不懂的地方，只要在電腦內輸入關鍵字，便可以看到所有錄影帶中的相關講解，如果想不起講課內容，只要回想起老師曾講過某個笑話，輸入笑話內的關鍵字，也可以找到前後的影片片段，實在是非常方便。

語音辨識技術仍難達成百分之百準確

但這技術的優點也是缺點，既然是搜尋影片中語音所轉換的文字，如果辨識錯誤該怎麼辦？事實上，語音辨識只是個發展了幾十年的技術，也一直還有改善空間；而且大部分的語音辨識技術，都是針對某一種語言所開發的，如果要針對全世界的使用者，上百種語言與數萬種口音的隔閡，讓語音搜尋簡直成為不可能的事情。

影片內容搜尋與廣告行銷

電腦對於精確的事情很在行，1+1=2不會出錯，但是模糊的事情就要依靠人類。一杯水加一壺水等於什麼？各位讀者的答案再怎麼急轉彎，也比電腦的「Syntex Error格式錯誤」好得太多了。語言本身就是一個很模糊的東西，連發音也很模糊，人跟人講話都有可能聽錯了，所以不能期待電腦完全正確抄寫影片中的對白。

EveryZing公司說，這技術不止用在搜尋上，還能抄錄整部電影的對白；也就是說，你可能知道周星馳在電影中將蟑螂取名為「小強」，但是哪一部電影呢？使用這技術，只要在他的電影中蒐集「小強」兩個字，不但可以知道是哪一部電影，連在幾分幾秒說的都能知道。如果搭配夠強大的翻譯軟體，可以先把各國的影片各自抽出該國語言對白，再翻譯成中文或其他文字，就可以把搜尋範圍擴大到網路上各種語言的影片。

除了EveryZing，Blinkx公司也使用語音技術搜尋影片內容，不過方法稍有差異。曾使用Google的人都知道，Google會從你找的網頁內容，決定提供什麼樣廣告給你參考；而這種針對特定使用者的廣告方式，也著實讓Google賺翻了。Google在影片搜尋方面也是一樣，藉由影片的檔名與關鍵字置入廣告，問題是YouTube的許多影片根本沒什麼可用的關鍵字，所以廣告往往沒有命中目標。Blinkx則會分析影片內容，據他們的說法，不只是語音而已，還包括影片視訊，然後根據這些內容決定要插入什麼廣告，使得廣告效率應該會比Google的文字搜尋好多了。

其他可能的搜尋方式

可能有人會問說，為什麼不用影像識別技術進行影片搜尋呢？其實這是個很棒的方法，想像一下，你想找台北101的影片，所以在網路上挑選一張台北101的照片，電腦便能掃瞄所有的影片，找出裡面有相似台北101的影片片段，並回報超連結給你瀏覽。更甚者，你只要輸入「101」，電腦便猜出你想找哪些影片。

圖片與影片辨識的實作困難度極高

那為什麼不這樣做？因為目前辦不到啊！在電腦科學中，想在一張圖片中找到一條直線，就要用到一些演算法，從各個角度，各個方向去尋找可能是線條的東西，而且需要的計算時間還蠻長的，別人的文字搜尋程式已經掃瞄完成整個文字檔，圖片比對程式卻剛準備好資料而已，況且一段影片是由許許多多的圖片所構成，這又將影片比對程式的難度乘上很多倍。

說到這個，我們不得不讚嘆自然界的奇蹟，每一個人都是一個了不起的工程成就。當你看到一張圖時，不用人家教，馬上就能辨識這張圖內有沒有台北101的影像，不必學習什麼類神經演算法、模糊理論，Hough Transform等數學多到想燒課本的技術，反正就是可以在一閃而過的影片中，找到有興趣的資訊。

前途無限技術有待突破

大致來說，資料搜尋的速度是以文字最簡單，然後是語音，圖片又更難。由於影片是由圖片構成的，在影片中尋找物體，困難度將是好幾倍，而在連續影片中識別出某個動作，更是乾脆坦承「辦不到」比較快。如果電腦可以知道影片中出現什麼資訊代表「偷東西」的動作，那光是賣給全世界的商店就賺到翻了。

微軟前總裁Bill Gates曾勸學生多研習電腦科學，因為有太多的技術等待開發，而其中許多離實現夢想的日子還非常遙遠，需要很多優秀的人才持續投入。就如我們這邊所說的，在眾多影片中搜尋有用的片段，目前只是個還不成熟的技術，不論是Blinkx或EveryZing，或者其他正在各頂尖機構研究的相關技術，其實都離真正的解決方法還有很大差距。建議讀者們不妨試用一下前述這些影片搜尋網站，也許會對於下一代的網路搜尋引擎有更多想法。

Telecom Trend

2008年4月18日星期五

語音辨識: Google也做不到的影片內容搜尋技術

沒有留言:

網誌存檔

關於我自己