第一页欧美-第一页综合-丁香花成人另类小说-丁香久久-顶级欧美色妇xxxxbbbb

學術咨詢

讓期刊論文更省時、省事、省心

上海信息化生僻字的信息處理

時間:2015年04月01日 分類:推薦論文 次數:

上海信息化生僻字的信息處理 推薦站內優秀雜志: 上海信息化 發表文章什么網站好 雜志是上海市經濟和信息化委員會主管的、全面反映中國城市信息化建設的新思維、新技術、新的數字生活,集權威性、前瞻性、技術性于一體的信息化讀物。 摘 要:漢字生僻字的輸

  上海信息化生僻字的信息處理 推薦站內優秀雜志:上海信息化 發表文章什么網站好 雜志是上海市經濟和信息化委員會主管的、全面反映中國城市信息化建設的新思維、新技術、新的數字生活,集權威性、前瞻性、技術性于一體的信息化讀物。

  摘 要:漢字生僻字的輸入,一直是困擾文史工作者的難題,本文試在前人的研究基礎上,提出一些關于漢字信息處理的設想和相關的解決方案。

  關鍵字:上海信息化,生僻字,字符集,信息處理

  漢字的信息處理經過多年的摸索,沖破了以前漢字不能進入計算機的迷信,取得了可喜的成績,但離能完全滿足實際使用的需要還有很長一段距離。

  我們先回顧一下計算機中的字庫,然后討論生僻字的信息處理方法。

  一、漢字庫發展簡介

  漢字庫通俗地說就是計算機軟件系統中的漢字倉庫,依據不同的標準,字庫中漢字的數量是不同的,以前的主要標準有:

  1、GB 2312 漢字編碼字符集

  從1975年開始,我國為了研究漢字的使用頻度,進行了大規模的字頻統計工作,內容包括工業、農業、軍事、科技、政治、經濟、文學、藝術、教育、體育、醫藥衛生、天文地理、自然、化學、文字改革、考古等多方面的出版物,在數以億計的浩瀚文獻資料中,統計出實際使用的不同的漢字數為6335個,而其中有3000多個漢字的累計使用頻度達到了99.9%,而另外的3000多個累計頻度不到0.1%,說明了常用漢字與次常用漢字的數量不足7000個,這就為國家制定漢字庫標準提供了依據。1980年頒布了《信息交換用漢字編碼字符集—基本集》的國標交換碼,國家標準號為:GB2312-80,選入了6763個漢字,分為兩級,一級字庫中有3755個,是常用漢字,二級字庫中有3008個,是次常用漢字;還選入了682個字符,包含有數字、一般符號、拉丁字母、日本假名、希臘字母、俄文字母、拼音符號、注音字母等。以前我國大陸的各種中文DOS版本、Windows3.1 /3.2版本,裝入的字庫都是國標一二級字庫。遇到“镕、啰、瞭、袆、祎、曌、赟、贇、鱻、驫、犇……”等漢字,既無法輸入,又不能打印。

上海信息化

  后來國家技術監督局又頒布了一個與之相對應的繁體字集,全稱《信息交換用漢字編碼字符集輔助集》,標準號為GB/T12345-90。

  2、臺灣 BIG5 字庫

  BIG-5碼是通行于臺灣、香港地區的一個繁體字編碼方案,俗稱“大五碼”。地區標準號為:CNS11643,這就是人們講的BIG5碼。

  BIG-5碼收錄漢字13053個,分為常用字和次常用字兩部分,各部分中的漢字按筆劃/部首排列。其中常用字5401個,包括臺灣教育管理部門頒布的《常用漢字標準字體表》中的全部漢字4808個,臺灣中小學教科書常用字587個,異體字6個;次常用字7652個,包括臺灣教育管理部門頒布的《次常用漢字標準字體表》的全部漢字6341個,《罕用漢字標準字體表》中使用頻率較高的字1311個。

  后來為了協助解決眾多使用BIG5碼單位于進行公文電子傳遞時遇到自造字無法轉換CNS的問題,實行了“BIG5碼字集擴編計劃”,1986年7月擴編完成,這就是所謂的“BIG5+碼”。

  BIG5+碼系以CNS為藍本,共增編標準字集4760個字符與推薦字集3250個字符;其標準字集即納編CNS第3字面字集內之4145個,第4個字面字集內之219個字,均為一般文書常用之中文字,總支持文字量達141376個

  3、大字符集字庫(又叫GBK字庫)

  國際標準化組織為了將世界各民族的文字進行統一編碼,制定了UCS標準。根據這一標準,中、日、韓三國共同制定了《CJK統一漢字編碼字符集》,其國際標準號為:ISO/IEC10646,國家標準號為:GB13000-90,該漢字編碼字符集就是通常人們所說的大字符集,它編入了20902個漢字,收集了大陸一二級字庫中的簡體字,臺灣《通用漢字標準交換碼》中的繁體字,58個香港特別用字和92個延邊地區朝鮮族“吏讀”字,甚至涵蓋了日文與韓文中的通用漢字,滿足了方方面面的需要。Windows95/98/NT/2000中都裝入了大字符集漢字庫,人們一般稱它為GBK(“國家標準擴展”的拼音縮寫)字庫。

  4、新標準漢字庫

  2000年3月,國家信息產業部和質量技術監督局在北京聯合發布了《信息技術和信息交換用漢字編碼字符集、基本集的擴充》,國家標準號為:GB18030-2000,收錄了27000多個漢字,還收錄了藏、蒙、維等主要少數民族的文字,以期一舉解決郵政、戶政、金融、地理信息系統等生僻漢字與主要少數民族語言的輸入,該標準于2000年12月31日強制執行。 GB 18030-2000 作為 GBK for Unicode 3.0 的更新而誕生,它帶有包含所有Unicode 的擴展,完全向下兼容 GB 2312-1980 和 GBK。

  二、對于漢字庫設計的想法

  字集不是越大越好,因為現存于大型字典辭書的字有一部分是歷史用字,還有大量的異體字。根據使用的需要和研究的情況,對漢字的信息處理可以分為幾個層次

  1、日常生活用字:(可有一個人名、地名輔助集和錯字集)

  日常生活用字就是常用字,這個數字可能就在3000字左右,再加上一些次常用字,可能也就在6000字左右,當然,其中哪些是常用字,哪些是次常用字,具體的字可能要隨著時代不同而發生變化。日常生活用字要求有規范性,現在進行的“規范漢字表”課題研究可能有助于此字集的確定。

  人名和地名用字是一個比較特殊的問題,國家語言文字工作委員會正在進行“人名、地名規范”的研究,如果此研究成果面世,則可能有助于解決現代人的人名、地名用字問題。

  此集中最好還應該有一個錯字集,在早期識字教育和對外漢語教學中,經常要使用到一些錯別字,別字好打,缺筆少劃的錯字沒有辦法處理,所以應特置一個錯字集,有利于錯別字教學的信息化與錯別字的集中糾正。

  2、一般古籍整理用字:(應該有一個異體字輔助集)

  古籍用字,數量比現代生活用字多。因為歷代沉積下來的異體字、死字比較多。關于這個問題,首先應該進行異體字的整理,異體字整理完成后,正體字就可以確定一個數量。為了保持古籍版本原樣,古籍整理工作者和語言文字研究者也要用到異體字,所以附錄一個異體字集。

  還有一個問題就是方言字,很多方言字來源于古代的字典辭書、地方韻書和方言詞典,少部分來源于民間文藝作品。首先方言字有一個規范的問題,那些有本字又意義比較明確的,應該首先選用本字。如本字不明,可沿用俗字。

  3、古文字用字:(也有一個異體字輔助集)

  關于古文字,一般定義為小篆以前的文字為古文字,其中有很多字還不可識,這種情況,就首先要區分出可識字(與小篆或楷書有對應字)與不可識字,然后進行異體字的整理。并且要能為每個不可識字設計可以調用的編碼,以利于檢索。

  漢字庫的設計,針對不同的用戶與使用目的,分級分層次是很必要的。各級之中首先要全,同時要考慮各級之間正體字與異體字、繁體與簡體、古文字與今字的正確對應等。

  此外,各種常用圖符也可考慮收錄到各級字庫中,如傳世古籍中出現的圈點符號、古文字中的有句讀作用的符號。少數民族和外域的漢字型變體字,也可考慮單置一類,以有利于文字的比較研究。

  三、解決方案

  以下所使用的操作系統,沒有特別指出的為Windows98,字處理軟件則為Word2000。其它則專門指出。

  (一)利用GBK漢字集解決生僻字的輸入方法。

  微軟從Windows 95(簡體中文版)視窗操作系統起,都采用了GBK字庫,該字庫收字20902個,基本能滿足日常生活用字(生僻人名、地名字除外)。要利用該字庫,通常可采用下列幾種方法。

  1.改用GBK輸入法

  Windows 95版本及以后版本提供了 GBK 內碼、GBK 全拼、GBK 雙拼、GBK 表形碼和 GBK 鄭碼5種 GBK 輸入法。但這些輸入法不是安裝的默認選項,需要從“控置面板”中打開“輸入法”對話框來添加。Windows 98 默認安裝全拼輸入法則可以選擇輸入一般漢字和 GBK 漢字(使用該輸入法的屬性設置)。其它同樣需要安裝。

  這些 GBK 輸入法中只有全拼比較常用,而且,這些輸入法所輸入的漢字,包括了 GBK 繁體和 GBK 簡體,數量非常大,所以造成兩方面的不便:一是重碼率高,選字非常麻煩;二是繁體簡體同時出現,有些字不容易分辨繁簡,同時如果不知道字的讀音,也很難選擇拼音輸入法。

  現在已有軟件研制商研制出能輸入GBK字庫的五筆字形輸入法,如智能陳橋,對于熟悉五筆輸入法者,比較便利。

  2、用Word插入符號的方法

  選“插入”菜單中的“符號”命令,在“字體”下拉列表中選“標準字體”(Word97是“宋體”),在“子集”中選“CJK統一漢字”(Word97是“部首及難檢字”)。一般可在列表中找到所需的漢字。雖然該字庫大致是按部首和筆畫進行編排的,但查找起來還是相當麻煩。以前有萬學仁先生編有《通用字符集部首表及區位碼(16進制)》[1],有利于查找,如果沒有該部首表,還有一種方法可以采用,先輸入一個與所要輸入的生僻字相同偏旁的漢字,并選中該漢字,然后用鼠標單擊“插入”菜單中的“符號”項,此時會彈出“符號”對話框,再用左右方向箭進行逐個查找和挑選,就會很快找到該生僻字的。如果是一個獨體字,則可以輸入一個筆畫相同的的獨體字(也不作偏旁)。很快會在其附近找到該字。

  (二)GBK字集以外生僻字的輸入

  1、使用Windows自帶的“造字程序”

  該程序操作簡單,使用方便,既可以用兩個字重新拆分組合成一個新字;也可以選一個相近的字加以修改而造一個新字;還可以直接在編輯框中畫出您所需要的字,比較便利的是前兩種方法,其步驟如下。

  (l)取兩個字中有用的部分,重新組合成一個新字。以“腘”字為例(為便于排版,沒有選用GBK以外的字作為例字,下同),單擊“開始”按鈕,選“程序”、“附件”、“造字程序”,出現“造字程序”窗口。在彈出的“選定代碼”窗口中確定所造的字的代碼位置,比如AAA1后按“確定”按鈕(如沒有出現,則選“編輯”中的“選定代碼”命令),此時在“造字”窗中出現“編輯”工作區。再選“編輯”菜單中的“調用”命令(在Windows2000、XP中則為“復制字符”命令),單擊“字體”按鈕,選擇字體后,在“形狀”框中輸入參考字“臘”,按“確定”按鈕。在“編輯”框中出現“臘”字。再選“窗口”中的“引用”命令(在Windows2000、XP中則為“參照”命令),一樣選定字體,輸入參考字“摑”,在“造字”窗中出現帶有“摑”字的引用框。用“造字”窗左邊的圈選工具圈選“編輯”框中的“昔”,按Del鍵。圈選“引用(參照)”框中的“國”,將它拖到編輯框中合適的位置,然后關閉“引用”框。再選“編輯”菜單中的“保存字符”命令,在對話框中按“確定”按鈕。

  此時該字已經建立,如文章中需要用到“腘”字只要將輸入法切換至區位輸入法,鍵入AAA1,即可出現“腘”字。

  如果要在以后能以平時的輸入方法輸入該字,那還要補上下一步操作;選“編輯”中的“輸入法鏈接”命令,如為第一次輸入,將彈出搜索對話框,在文件名輸人框中以英數方式輸入你常用的輸入法,單擊“打開”按鈕,彈出是否要創建該文件的詢問,單擊“是”。如有多種輸入方法,則依次鍵入不同的輸入法文件名,完成后彈出輸入外碼對話框,輸入該字的外碼(如鏈接了多種輸入法,則有不同輸入法的外碼)。按“注冊”按鈕。但要注意輸入的外碼必須符合該輸入法的規定,計算機不承認你自行定義的外碼。

  (2)用相近的字修改。以“臿”字為例:前邊的步驟與前例相同,只是將參考字改為“插”。用上述的方法刪除“插”字的提手旁后圈選“編輯”框中的“臿”,將它向左拖至框的中間,通過調整八個控制點來改變形狀大小至滿意。以后的操作與上例相同。

  該法的優點是:不管是否知道該字的讀音,總能通過拆分組合的方法造出來。并且,當正確輸入外碼注冊后,平時還能以習慣的輸入方法輸入該字。缺點在于如果需要將使用了該造字文件的文檔拷貝到其它計算機中,還需要拷貝造字文件。

  (3)對于某些類似于圖形的字,可以選用各種工具畫出需要的字形。

  2、用Word組字

  Word2000的“格式”菜單中有“中文版式/雙行合一”功能,工具欄上有“字符縮放”按鈕,利用它們您可組合一些冷僻字。較之用其他方法要簡便得多,操作方法如下:

  (l)對于左右型字體,以“嬿”字為例:輸入“女”字后緊接著輸入“燕”字;選中“女”字,單擊“字符縮放”按鈕,選擇合適的比例(該字可選50%);選中“燕”字,單擊“字符縮放”按鈕,選擇合適的比例(該字可選80%);同時選中“女”與“燕”,選“格式/字體”命令,單擊“字符間距”標簽,在“間距”框中選“緊縮”,再單擊“確定”按鈕即可。

  (2)對于上下型字體(以“斊”字為例):鍵入“文耳”兩字,然后選中它,在“格式”工具欄上的“字號”框內選擇合適的字號(通常輸入“四號”字時可選“小五”號,輸入“五號”字時可選“小六”號。但有時差距可能還要大一些);單擊“字符縮放”按鈕,選擇合適的比例(該字可選200%);選“格式/中文版式/雙行合一”命令,按“確定”按鈕。

  采用上法輸入冷僻字要使字型漂亮,對于左右型字關鍵在于輸入合適的比例;上下型字則在于合適的比例及“大小”框中的數值,當然字號的大小也是十分重要。但此法對于結構復雜如包圍型、半包圍型、聲(形)占一角型等的字則不適用。采用該法組成的字,還可以作為字符串檢索。

  3、如果要經常運用到大量生僻字形,則可以選用已有的自造字字庫進行插入。

  現在已經有大型的自造字字庫出現,如由日本《今昔文字鏡》研究所制作的《今昔文字鏡》,包括24個TTF格式的矢量字庫,共包括九萬個漢字。其中收錄日本《ISO10646字符集》漢字兩萬個,《大漢和字典》漢字五萬個,其他四萬個漢字包括:甲骨文、梵文、大陸、臺、港漢字、水文、越南字喃、漢字偏旁和造字部件、日文假名、俄文、拉丁文等各種常用字母和符號。適用于WINDOWS95/98/NT為操作系統的各種文字處理應用軟件。還提供了一個簡單易用的檢索應用軟件。

  還有如北師大漢字與中文信息處理研究所研制的《說文小篆輸入法》,能夠輸入所有小篆字形和《說文》所收古文、籀文等字形。

  其它還有一些古籍數字化機構與研究人員也造了各種各樣的字庫,只需要安裝到字體中,就可以顯示打印他們所造的字。此種字庫,如能有統一的規范與標準就比較好交流使用。并且最好能有一個檢索和輸入字符的相應軟件才可資重復利用。

  4、用字體制作軟件制作自己的字庫。現在已經有比較好用的字體制作軟件,如Font Creator Program,如果能熟練使用,則可以自己量身定做自己的字體,優點在于可以隨時補充修改。缺點在于自造字庫千差萬別,通用性差。

  參考文獻:

  [1]萬學仁.談談非常用字的信息處理[J].內江師范學院學報,2001,(3).

主站蜘蛛池模板: 国产大片在线播放 | 国产精品jizz在线观看免费 | 黄色大全视频 | 亚洲视频国产 | 亚洲无线乱码高清在线观看一区 | 久草在线香蕉 | 国产精品网站在线观看 | 亚洲精品毛片久久久久久久 | 黄色一级免费网站 | 国产福利一区二区 | 免费的黄色毛片 | 日鲁夜鲁天天鲁视频 | 国产精品日韩欧美久久综合 | 婷婷玖玖 | 色噜噜狠狠一区二区三区 | 大陆老太xxxxxxxxhd | 成人午夜亚洲影视在线观看 | 男人看片网址 | 综合激情区视频一区视频二区 | 在线视频麻豆 | 免费网站在线观看高清版 | 99久久国产综合精品麻豆 | 国产黄色片在线观看 | 美女免费精品高清毛片在线视 | 婷婷月| 青青热久久久久综合精品 | 亚洲国产成a人v在线观看 | 国产精品福利无圣光一区二区 | 日韩在线精品视频 | 草草影院ccyy国产日本欧美 | 国产激情网 | 国产伊人影院 | 欧美xxxx性疯狂bbbb | 久久一区二区三区99 | 大黄网站在线观看 | 亚洲天堂高清 | 国产萝控精品福利视频免费观看 | 幸福宝色多多 | 欧美+日本+国产+在线观看 | 伊人久久精品亚洲精品一区 | 亚洲三级小视频 |