计算机应用基础(Windows 7+Office 2010)
上QQ阅读APP看书,第一时间看更新

1.3.3 字符编码

在计算机中,对非数值的文字和其他符号进行处理时,采用二进制编码来标识数字和特殊符号。

1.西文字符编码

目前使用最广泛的西文字符集及其编码是ASCII字符集和ASCII码。美国信息交换标准代码(American Standard Code for Information Interchange,ASCII)于1968年提出,用于在不同计算机硬件和软件系统中实现数据传输标准化,在大多数的小型机和全部的个人计算机都使用此码。

ASCII码使用指定的7位或8位二进制数组合来表示128或256种可能的字符。标准ASCII码也叫基础ASCII码,使用7位二进制数来表示所有的大写和小写字母,数字0到9、标点符号以及在美式英语中使用的特殊控制字符。标准ASCII码如表1-2所示。

表1-2 ASCII码表

续表

2.汉字编码

汉字的编码分为国标码、机内码、外码和输出码。

(1)国标码

《信息交换用汉字编码字符集·基本集》是我国于1980年制定的汉字编码国家标准,代号为GB2312-80,称为国标码,是国家规定的用于汉字信息处理的代码依据。

国标码字符集共收录了7445个字符,其中包括6763个常用汉字和682个非汉字字符,常用汉字中包括一级常用字3755个,二级次常用字3008个。

国标码的编码范围是2121H~7E7EH。

将7 445个汉字字符的国标码放置在94行×94列的阵列中,就构成了一张国标码表。表中每一行称为一个汉字的区,用区号表示,范围是1~94;每一列称为一个汉字的位,用位号表示,范围是1~94。区号和位号组合起来就构成了汉字的区位码,高两位表示区号,低两位表示位号。

(2)机内码

汉字的机内码是用于计算机系统内部进行数据的存储、处理和传输过程中统一使用的代码,又称为汉字的内部码或汉字内码。目前使用最广泛的为两个字节的机内码,俗称变形的国标码。

将国标码中的每个字节在最高位改设为1,这样就形成了在计算机内部用来进行汉字的存储、运算的编码称作机内码。

国标码和汉字内码的转换关系如下:汉字内码=国标码+8080H

(3)外码

国标码或区位码都不利于汉字的输入,为方便汉字的输入而制定的汉字编码,称为汉字输入码,又称为外码。不同的输入方法,形成了不同的汉字外码。外码的类型综合起来可分为:按汉字的排列顺序形成的编码,如区位码;按汉字的读音形成的编码(音码),如全拼、简拼、双拼等;按汉字的字形形成的编码(形码):如五笔字型、郑码等;按汉字的音、形结合形成的编码(音形码):智能ABC。

(4)输出码

为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码(字形码)。汉字字库(是汉字字形库的简称),是汉字字形数字化后,以二进制文件形式存储在存储器中而形成的汉字字模库。汉字字库可分为软汉字字库和硬汉字字库两类。目前,汉字字形的产生方式大多是数字式,即以点阵方式形成汉字。因此,汉字字形码主要是指汉字字形点阵的代码,字形码存储于汉字字库中。

汉字字形点阵中每个点的信息要用一位二进制码表示。已知汉字点阵的大小,可以计算出存储一个汉字所需占用的字节空间,也即:字节数=点阵行数×点阵列数/8。例如,16×16点阵的字形码需要用32个字节(16×16÷8=32)表示;24×24点阵的字形码需要用72个字节(24×24÷8=72)表示。