略談「標準字集」

在談字集之前,我們得先瞭解「字碼表」是什麼。

電腦是一種數位化的工具,所以即使是純文字文件,在電腦中也是以數字來儲存,然後在讀取的時候,將這些數字「解譯/翻譯」成字元,而這樣的對應表格,就叫「字碼表」。以最老資格的「ASCII」字碼表為例,讀到「65」這個數字,就會把它翻譯,顯示出英文大寫「A」。

也因此,什麼樣的數字代表什麼字,是由「人」去定義。一般來說,基本儲存單位是 Byte,數字範圍是 0~255,而 ASCII 只使用到 127,而且是電腦操作上必需的英文、符號、控制字元,所以一般其他語言的字碼不會去跟它抵觸,那麼算下來,還有 128 個字元可以用。

128個字?!對中文來說這顯然是絕絕對對不夠的,所以當初設計中文電腦系統的時候,選擇使用「兩個 Bytes」來顯示一個中文字,所以理論上這樣的設計可以對應數萬個中文字。

前面說到,標準字集(只)有 13051 字,將這些字按一定規則或次序對應(塞)進這些空間,就可以做出字碼表,用這個方式做出來的字碼表中,台灣最流行的就是 Big-5 碼(因為他是第一套中文字碼,哈)。只要有同樣的對應表,檔案即使交換也能做出正確地解讀。而其他的空間,可以供使用者造字,或由各中文系統運用。也因此,當年最流行的倚天中文,在這13051字之外,又自己造了7個字(這裡都還不談標點、圖表…等):【碁、銹、恒、裏、墻、粧、嫺】

會不會覺得有點心驚膽跳?因為這些你完全不陌生的,竟然需要另外補上?那我再舉些例子好了:Big-5碼加上這個倚天擴充,還是沒有前行政院長的名字最後一字 ~ 游錫「堃」。讓我們水牛院長在 PTT 只好很鬱悶地取個 fanfantu2014(方方土2014) 的 ID 自嘲。王建「火宣(煊)」、陶「吉吉(喆)也都查無此字,最可憐當屬「圖書」了,「碁」字得到倚天擴充,但是「峯」字還是沒有,它還是一家資訊圖書公司,想來令人不免有點啼笑皆非。

簡單地說,Big-5 (或該說標準字集)對字的收錄是很奇怪的,沒有上段的那些常用字,卻有「嘂、尐、櫑、弢、讟、袌、巹…」等一般人一輩子大概用不上一次的字。

另外,上一篇說過,標準字集有分為常用字及非常用字,而這其中的區分也非常奇怪。常用字中包括了「觼、嘐、篛、鼙、鶸…」等根本難得一見的字,非常用字裡也有「万、沏、厘、紈、菖、酢、鯰、鑫、鱈…」等日常可見的字。

早期的電腦記憶體與儲存空間小,而且部份銷售規劃市場區別,所以當時的產品有標榜「常用字版」,那麼後者那些類型的字就不會被載入,也就無法被使用。

在 PTT 有人討論到異體字,那就是另一個有趣(?)的問題了。直接看高老師的文吧~


不過,這些問題,在現在已經不太會遇到了。因為這種問題不是只有台灣有(笑),很早就已經有萬國碼計劃的發起,完整地使用兩個Byte,可以對應 65535 個字元。在作業系統不斷改朝換代下,現在都能從核心層去支援,所以一般使用上大概不太會遇到亂馬(1/2)。不過如果真的很想看的話,也不是不行,只要去奇摩(http://tw.yahoo.com),然後從瀏覽器的「檢視→編碼」調整「萬國碼(Unicode)」與「繁體中文(Big-5)」切換看看,大概就可以理解什麼叫一個中…呃,我是說「一份文件,不同解讀」。 XD