1.常用的汉字编码
目前计算机中的汉字编码有国标码GB2312-80、GBK编码、GB18030-2000新国标码。
1)国标码GB2312-80
我国1980年发布的《信息交换用汉字编码字符集基本集》(GB2312-80)是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。它是一个简化字的编码规范,当然也包括其他符号、字母、日文假名等,共7 445个图形字符,其中汉字占6 763个。GB2312规定,对任意一个图形字符都采用两个字节表示,每个字节均采用7位编码表示,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。计算机、手机的中文操作系统都支持GB2312基本汉字编码。
2)GBK编码
GBK编码(Chinese Internal Code Specification)是中国大陆制定的新的中文编码扩展国家标准。GBK编码能够用来同时表示繁体字和简体字,而GB2312只能表示简体字,GBK是兼容GB2312编码的。GBK工作小组于1995年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21 003个、符号883个,并提供1 894个造字码位,简、繁体字融于一库。Windows95以后的简体中文版OS的字库表层编码采用的就是GBK。
3)GB18030-2000编码
GB18030-2000编码标准是由信息产业部和国家质量技术监督局在2000年3月17日联合发布的,并且被作为一项国家标准强制执行。GB18030-2000编码标准是在原来的GB2312-1980编码标准和GBK编码标准的基础上进行扩充,增加了四字节部分的编码。它可以完全映射ISO10646的基本平面和所有辅助平面,共有150多万个码位。在ISO10646的基本平面内,它在原来的2万多汉字的基础上增加了7000多个汉字的码位和字型,从而使基本平面的汉字达到27 000多个。它的主要目的是解决一些生、偏、难字的问题,以及适应出版、邮政、户政、金融、地理信息系统等迫切需要的人名、地名用字问题。
有的中文Windows系统的缺省内码还是GBK,这可以通过GB18030升级包升级到GB18030。不过GB18030相对GBK增加的字符,普通人是很难用到的,通常人们还是用GBK指代中文Windows内码。
2.汉字机内码
在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别置成“1”,就变成了汉字机内码。
3.汉字的输入码
汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。例如全拼方案中“网”的输入码是“wang”,双拼方案中“网”的输入码是“wh”,因为有同音字,所以相同的输入码对应的汉字不唯一。此外,不同的输入方案中汉字的输入码也不相同。
4.点阵汉字的字型码
用点阵方式来构造汉字字型,然后存储在计算机内,构成汉字字模库。其目的是显示和打印汉字。显示一个汉字一般采用16×16点阵、24×24点阵或48×48点阵。图2-4所示是一个16×16点阵字形图,根据汉字点阵的大小,可以计算出存储一个汉字所需的存储空间,即字节数=点阵行数×点阵列数/8。
例1.16 分别计算一个16×16点阵汉字和一个32×32点阵汉字所占用的存储空间。
解:一个16×16点阵汉字占用空间=16×16/8=32字节。
一个32×32点阵汉字占用空间=32×32/8=128字节。
全部汉字字形码的集合叫汉字字库。汉字字库可分为软字库和硬字库。软字库以文件的形式存放在硬盘上,现多用这种方式。硬字库则将字库固化在一个单独的存储芯片中,再和其他必要的器件组成接口卡,插接在计算机上,通常称为汉卡,现在已不常用。
图2-4 16×16点阵图
5.矢量汉字字符
矢量汉字在计算机中用汉字中每一个笔画的起始、终止坐标,半径、弧度等字形信息来描述汉字,在显示、打印这一类汉字时,要经过一系列的数学运算才能输出结果,但是这一类字库保存的汉字理论上可以被无限地放大,笔划仍然能保持圆滑,最大限度地克服了点阵汉字放大后出现的“锯齿”问题。某一类字形(如宋体)的所有汉字字形信息存放在一个指定字库文件中。
Windows系统使用的字库也有两类。在FONTS目录下,字体文件扩展名为FON的文件表示该文件为点阵字库,其中存放字符(包括汉字)的点阵信息;字体文件扩展名为TTF的文件是矢量字库,在矢量字库中保存的是对每一个字符(包括汉字)的字形描述信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。