字庫,就是我們使用計算機是顯示漢字的圖像源。計算機調用字庫顯示漢字,不是直接調用相同的圖像,而是調用這個漢字的內碼,程序通過這個內碼,再到相應的圖像源(字庫)當中尋找相應的圖像信息,並畫到屏幕上或者打印到紙上。所以,只要是文本文件,在以二進制模式打開的時候,顯示的都是這些字的內碼而不是圖形。
人們一般常用的都是PC機。操作環境一般使用的都是Windows操作系統。它的字庫都存放在Windows\fonts\目錄下。打開這個目錄就可以看到各式各樣的字庫。其中顯示為漢字的(如"宋體"),就是中文字庫。安裝字庫的時候,只要用鼠標點擊浏覽器的文件→安裝新字體,就顯示出一個文件操作界面。選中相關字庫文件所在的目錄,系統就會自動掃描字庫文件,選中之後再點擊"安裝",字庫就會拷貝到Windows\fonts\目錄下了,這就算安裝好了。如果你對文件所在位置比較熟悉,也可以直接將其拷貝到該目錄下,之後,當你再啟動應用軟件(如Word、WPS等等)的時候,在選擇字庫的時就可以選用你安裝的字庫了。想刪除字庫,同樣也是進入到該目錄下,選中想要刪除的字庫,點擊文件→刪除就可以了,更為便捷的,使用鼠標右鍵,直接刪除。
字庫的內部結構。用常見的字庫程序(如:Font Creator)可以打開字庫。字庫打開之後可以發現,字庫內的每一個字的圖像都是由曲線環繞而成。曲線上有很多的小點點。當鼠標拖動這些控制點的時候,曲線會發生變化,字的圖像也就改變了。如果就這樣存盤,在使用這個字庫的這個字的時候,就會和原來的不一樣而和你修改後的樣子相同。這就是字庫的編輯,很簡單,每一個人都會做的。
這時你會發現,打開一個西方文字的字庫,最多也不會超過256個字符圖像。一般大致二十六個拉丁字母(因文字不同而小有區別)的大小寫、數字、常用標點符號等等,一個人搞個一天兩天,完全可以解決問題。而漢字的就大不相同了。最小的漢字字庫也要6763個漢字。要想搞定一版漢字字庫,顯然不是一兩個人一兩年的事(一般需要3~5人/年)。它需要大量的人力和時間。所以說,漢字庫不是太復雜,而是太繁瑣,非專業人士難以涉足。
現在全世界有文字的語言至少有幾百種,它代表著全人類的文化。從前,當您發行一種文件(譬如報紙)或者軟件,都需要使用當地語言的操作系統重新輸入語言代碼。由於代碼不同,如果一種語言的文化想跟上世界發展水平,或者發展水平高的向水平低的普及的話,就很困難。所以人們發明了UNICODE,將全人類的文字統編到同一個編碼系統當中。雖然各種語言文化系統使用不同的代碼系統,但是使用UNICODE就可以使用同一個操作系統去識別不同的語言文字。
LINUX、UNIX、WindowsNT、MAC等都使用UNICODE。由於不少文化歷史地存在著互影響的,所以其語言也有著血緣關系,譬如中國大陸使用簡體中文,台灣使用繁體中文。大陸和台灣有著血緣關系。簡體中文中有一大部分是繁體中文中也使用的。怎樣既區別又兼容這種現象呢?人們發明了以代碼頁命名的區別系統。譬如同屬於中國文化圈的中國大陸、台灣、日本、韓國,日常使用的文字當中都有漢字,所以以936、950、932、949等四個代碼頁相互區別。
漢字的使用當然還是以中國為核心,所以漢字文化圈叫做CJK系統(C指中國,J指日本,K指韓國)。中國大陸使用的簡體中文叫做GBK(即:GB_13000)。其代碼頁和輸入法在Windows\GBK.txt全部提供了,可以參考。台灣繁體字編碼系統叫做BIG5(大5碼)。GBK包含GB_2312和BIG5,共有20902個漢字。新出版的GB_18064,共有六萬多個字符,字符代碼又擴大了。