略談「標準字集」

在談字集之前，我們得先瞭解「字碼表」是什麼。電腦是一種數位化的工具，所以即使是純文字文件，在電腦中也是以數字來儲存，然後在讀取的時候，將這些數字「解譯/翻譯」成字元，而這樣的對應表格，就叫「字碼表」。以最老資格的「ASCII」字碼表為例，讀到「65」這個數字，就會把它翻譯，顯示出英文大寫「A」。

也因此，什麼樣的數字代表什麼字，是由「人」去定義。一般來說，基本儲存單位是 Byte，數字範圍是 0~255，而 ASCII 只使用到 127，而且是電腦操作上必需的英文、符號、控制字元，所以一般其他語言的字碼不會去跟它抵觸，那麼算下來，還有 128 個字元可以用。128個字？！對中文來說這顯然是絕絕對對不夠的，所以當初設計中文電腦系統的時候，選擇使用「兩個 Bytes」來顯示一個中文字，所以理論上這樣的設計可以對應數萬個中文字。

前面說到，標準字集(只)有 13051 字，將這些字按一定規則或次序對應(塞)進這些空間，就可以做出字碼表，用這個方式做出來的字碼表中，台灣最流行的就是 Big-5 碼（因為他是第一套中文字碼，哈）。只要有同樣的對應表，檔案即使交換也能做出正確地解讀。而其他的空間，可以供使用者造字，或由各中文系統運用。也因此，當年最流行的倚天中文，在這13051字之外，又自己造了7個字(這裡都還不談標點、圖表…等)：【碁、銹、恒、裏、墻、粧、嫺】

會不會覺得有點心驚膽跳？因為這些你完全不陌生的字，竟然需要另外補上？那我再舉些例子好了：Big-5碼加上這個倚天擴充，還是沒有前行政院長的名字最後一字 ~ 游錫「堃」。讓我們水牛院長在 PTT 只好很鬱悶地取個 fanfantu2014(方方土2014) 的 ID 自嘲。王建「火宣(煊)」、陶「吉吉(喆)」也都查無此字，最可憐當屬「碁峯圖書」了，「碁」字得到倚天擴充，但是「峯」字還是沒有，它還是一家資訊圖書公司，想來令人不免有點啼笑皆非。

簡單地說，Big-5 （或該說標準字集）對字的收錄是很奇怪的，沒有上段的那些常用字，卻有「嘂、尐、櫑、弢、讟、袌、巹…」等一般人一輩子大概用不上一次的字。

另外，上一篇說過，標準字集有分為常用字及非常用字，而這其中的區分也非常奇怪。常用字中包括了「觼、嘐、篛、鼙、鶸…」等根本難得一見的字，非常用字裡也有「万、沏、厘、紈、菖、酢、鯰、鑫、鱈…」等日常可見的字。

早期的電腦記憶體與儲存空間小，而且部份銷售規劃市場區別，所以當時的產品有標榜「常用字版」，那麼後者那些類型的字就不會被載入，也就無法被使用。

在 PTT 有人討論到異體字，那就是另一個有趣(?)的問題了。直接看高老師的文吧~

不過，這些問題，在現在已經不太會遇到了。因為這種問題不是只有台灣有(笑)，很早就已經有萬國碼計劃的發起，完整地使用兩個Byte，可以對應 65535 個字元。在作業系統不斷改朝換代下，現在都能從核心層去支援，所以一般使用上大概不太會遇到亂馬(1/2)。不過如果真的很想看的話，也不是不行，只要去奇摩(http://tw.yahoo.com)，然後從瀏覽器的「檢視→編碼」調整「萬國碼(Unicode)」與「繁體中文(Big-5)」切換看看，大概就可以理解什麼叫一個中…呃，我是說「一份文件，不同解讀」。 XD