論詞庫之於輸入法
主講人:蕭易玄
■ 什麼是詞庫
說到「詞庫」這個東西啊,輸入法創造者對它有著不同的評價。有的輸入法是重視字的輸入,對詞庫深惡痛絕,說「詞庫」是「不正規」的東西。也有輸入
法是把詞庫當成輸入的輔助。不過,對注音輸入法而言,「詞庫」可以說是不可或缺的吧,因為注音輸入法需要依靠詞庫來提高它的效率。
什麼是詞庫呢?我以注音舉個例子說明詞庫的原理與運作方式。「ㄆㄧㄥˊ」這個發音有很多字,而「ㄍㄨㄛˇ」這個發音也是,但是「ㄆㄧㄥˊ」「ㄍㄨ
ㄛˇ」連在一起的呢?只有「蘋果」這個組合吧?所以輸入法直接送出「蘋果」給你,而這也是你要的。是不是就提高了效率?
■ 詞庫的使用方式
雖然不同的輸入法對詞庫有不同的運用方式。但是不約而同的,都是希望利用詞庫方便使用者的輸入。也因此,詞庫的輸入方式,相對的也關係到使用者的
輸入效率。
- 以智慧型注音來說,就是以上面舉的「蘋果」那個例子的運作方式。好處是幾乎不用選字,缺點是電腦經常幫倒忙選錯,就會產生像是「問世
姦情為何物?」這樣的有趣句子。
- 以前有出現過一種「散彈注音」,利用取頭尾的方式輸入,「蘋果」打「ㄆㄥㄍㄛ」就好了。按鍵上少很多,不過在實際輸入的時候,使用者
要跳過「ㄧ」「ㄨ」的取碼,有些人不太習慣。
- 一般的拆字型輸入法,有一種叫「無為而治」的方式。就是開放讓使用者自己去編。例如使用者定義:「OPEC」就是「石油輸出國家組
織」,那打「OPEC」就會出現「石油輸出國家組織」。好處是自由定義,缺點就在定太多的話,容易忘記。
- 跟這種方式很像的,有一種叫做「天馬行空」。差別只在於是輸入法公司定的,讓使用者比較好記、比較有通用性。也不能說好或是不好,總
之見仁見智,我們不去評論。
- 一般輸入法比較會去使用的,是用自己輸入法的拆碼方式去編詞庫。對,智慧注音就是,但是我們這邊探討一下拆字型的輸入法。比如大易輸
入法用的方法是「頭尾頭尾」(二字詞)跟「前三後一」,前三字的頭碼跟最後一個字的尾碼。輕鬆輸入法用的是「頭尾頭尾」(二字詞)跟「最
多前四頭」。那個比較容易在輸入時輸入,也是見仁見智,自己打打看就知道了。
■ 詞庫在輸入法中的地位
一個輸入法依據性質的不同,對詞庫的依賴程度也不同。
有的輸入法對字的輸入已經非常嚴謹,那它可能就把詞庫當成使用者的輔助,甚至有的是單字版免費,詞庫版收錢的輸入法。
當然也有輸入法把詞庫當成送給使用者,讓他們方便設計一些常輸入字的功能。這樣的輸入法是不會內建詞庫的。
而對一些門檻低、選字率高的輸入法而言,詞庫可以說是救星,藉以提升效率。這對使用者當然是件好事,而且可以彌補單字選字率太高的缺點。這個部份
的話,以現在的【輕鬆輸入法】,可以說達到最大的利用率。除了利用詞庫的輸入外,還加了利用詞庫輸入單字的「五碼定字」特別輸入方式。很充分的利
用了詞庫的優點。
另外,在研究中發現,拆字嚴謹的輸入法,想加入詞庫的話:
- 像智慧注音那樣自動選字:根本沒意義,拆字嚴謹的輸入法,還需要你選什麼字嗎?
- 用頭尾的方式省略拆碼:中間省略的不習慣性,另外學習輸入方式的疑慮(?)
所以一些拆字嚴謹的輸入法,對詞庫是抱持懷疑的態度。
反而是易上手,選字牽偏高的輸入法,會利用詞庫去提昇使用者輸入的效率。
■ 詞庫的大小與品質
一般輸入法(當然是指有內建詞庫的)詞庫的大小通常是一萬五到十幾萬(條)的差別。例如以前DOS時代倚天中文的忘形輸入法大約是一兩萬詞,微軟
新注音大約三萬詞,舊輕鬆輸入法有十萬詞,現在的輕鬆輸入法2004因為包含了五碼定字功能,更是多達三十五萬詞。
而詞庫的品質也關係到使用者實際上機時的輸入效率。愈多的詞庫,固然在理論上愈能讓使用者輸入更方便,但是收錄太多冷門的詞彙,反而會讓輸入效率
降低,因為太冷門的詞,影響到常用詞,在輸入時必須選字。
■ 詞庫的先天限制
詞庫的缺點,就在於他自身。因為詞庫的興起,是來自「詞」這個概念。而現在詞庫中詞的概念,大多數是指白話文中、口語中的「詞」。也因為是白話
文、口語上的使用,所以「詞」當然就不可能包含「不常用字」。意思就是一些古字或是無意義的字,通常是不會有詞彙的,例如「髟」、「嵢」…等等。
這些字,終究還是得乖乖的用單字打法去打,所以如果是拆單字會很困難或是太沒效率的輸入法,遇到這些字時,就會拖累效率。
■ 詞庫的展望
詞庫雖然有它的限制,不過隨著中文的發展,在一般日常應用上會愈來愈實用。大陸中科院的研究成果表示:當前的漢字輸入技術,基本上都是以單字輸入
為主,輔以或強或弱的詞組輸入方式。
現在原本倚重詞庫的輸入法,已經開始逐漸走向「以詞為主,單字為輔」的趨勢,這樣的發展,可以說是勢在必行。因為中文不可能再回到古代那樣的文言
文,加上現代中國語文,是以詞為主要結構的特性,以詞為單位的輸入,可以說是中文的輸入的一個燈塔、可以前進的目標,是外語無法做到的。
我的演講到此結束,要扔蕃茄、雞蛋的,請等我離開後再自由動作,謝謝…
- -
▽