文章詳細內容
第 27 期 2001/10/8 -- 2001/10/14 文明探索
 
蠻幹科學之我見
何遠  
 

語音辨識聲音取樣的過程就把事情極度複雜化:把五秒鐘的聲音變成二十四萬個數字,發現訊號實在是太多、太棘手而無法處理,於是套上濾波器,然後把訊號節省到剩下四十二個參數,最後卻發現失真太多…


科學有一種蠻幹的精神。幾個世紀前有一位學者說:「只要給我一根夠長的棍子跟一個支點,我就可以撐起地球。」科學好像只要發現了一點什麼或是找到了一點什麼工具,就可以拚了命地往下鑽,往下做。

我所屬的實驗室是在做語音訊號處理的研究,最主要是語音辨識。語音辨識簡單地說,就是要讓機器(或電腦)聽得懂你講的話。它的過程是這樣的:首先把人講話的聲音訊號取樣,做傅利葉轉換,經過一個精心設計的濾波器之後,取得一組特徵參數,然後把這組特徵參數與資料庫中已存有的大量的人的聲音資料做比對,因為資料庫中的聲音訊號是已知發什麼音的,所以對比出來最接近的那個聲音就是要辨識的答案了。

首先,把聲音取樣的過程就是把事情極度複雜化的過程。以取樣頻率48kHz來算,五秒鐘的聲音就會被取樣成二十四萬個數字,這麼多的數字當然也只有電腦看得懂了。把聲音變成了人無法掌握的形式之後,又拚命地想出各種方法去處理它--去除背景雜音,語者辨識,建立人的聲道模型等,真是用盡最高深的數學在解這個問題了;即使如此,到最後還是得算機率——這段聲音是哪個答案的可能性最大,所以辨識的結果是——你講的是這個音,可能是這個字。如果在限定領域的條件下做語音辨識的話,正確率大概在70%到90%之間。什麼是限定領域?就是你講話的內容只能限定在某個範圍(如體育)之內,超出這個範圍(如你聊到了政治)——辨識成功率就直直落了。

第一步的取樣可以說是錯誤的開始——把五秒鐘的聲音變成二十四萬個數字,然後發現實在是太棘手了,無法處理,於是套上濾波器,做傅利葉轉換,把訊號由時間序列轉到頻譜空間來處理。即便如此,訊號還是太複雜,怎麼辦?再取特徵參數,把訊號節省到剩下四十二個參數,終於到了可以處理的程度了,開始跟資料庫裡的資料比對。

因為資訊失去太多,所以只能開始算機率——這個音是那個音的機率最大、這個音不太可能是那個音。算完之後發現結果還是不行,再套上語言模型,終於把辨識率拉到可以接受的程度。

別說這是愚公移山,這應該用「蠻幹」兩個字來形容才對。要達成這個目的怎麼會用這麼笨的方法?因為這已經是科學所能提供的最「聰明」的方法了。科學既然提供不了更好的辦法,科學家們就只好用笨方法,繼續蠻幹下去了。

想想,狗兒不用訓練都知道主人的喜怒哀樂,科學研究證實植物有「他心通」,能夠知道別人腦袋想些什麼;人怎麼會想到反過來要電晶體跟位元來「聽懂」人講的話?
(取材自正見網,2001年8月12日)

Copyright © EpochTimes Taiwan. All Rights Reserved.