字符编码概论 // Shell's Home

首先，阐明几个基本概念。字符集，编码方案，编码范围，编码方法，编码位数，兼容性，编码兼容性。

字符集是指一系列符号的集合。计算机中只能处理数字，因此符号必须给予编码，而后储存符号编码。打印时按照编码索引到符号，再索引到字体。因此一个字符集编码为数字的方案就是编码方案。其中西文编码规范就是ASCII(ISO-8859-1)。

编码范围是指字符集的有效符号编码的范围。例如当前的ASCII编码范围是0-127，因此所有兼容ASCII的编码，其编码范围必定要回避0-127，否则就会出现编码冲突。而编码方法(不等同于编码方案)则是这个数字转换为计算机内数据的方法，一般分big endian(大端点)和little endian(小端点)两种。

big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。还是将49写在前面，就是little endian。“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，其中一个皇帝送了命，另一个丢了王位。

当然，编码方法还有其他情况，例如UTF-8就也是一种编码方法，叫做非等长编码。非等长编码在安全性，扩充性和兼容性上优于等长编码，但是使用起来效率非常差。不信的可以用windows中的_mbsdec函数看看，除了当前指针，还需要起始指针进行逆遍历，效率可想而知。

在大端点和小端点的情况下，存储一个符号所需要用的位数叫做编码位数。位数分为固定位数和浮动位数。又因为编码位数一般都为8的整数倍，因此一般都使用编码字节数来代替。

兼容是指一个字符集的文字在另外一个字符集中全部存在。所以，A字符集兼容B，一般B字符集不兼容A，否则两者就相同了。编码兼容性是指一个字符集的文字在另外一个字符集中全部存在，并且同一文字表示的编码一致。可以想见，编码兼容的字符集本身一定兼容。

其次，GB3212, GBK, GB18030, BIG5, CNS11643, CJK, Unicode, UCS-2, UTF-8的区别。

简体中文来说，基本是GB系列的大陆地区简体中文国家标准，全部都是向下编码兼容的(附注：存在部分的兼容错误)。有GB3212, GBK, GB18030三个标准。编码方案都是兼容小端点序。(GB18030有变长编码)

1980年制定的GB2312是国家早期的字符编码规范。一共收录了7445个字符，范围是0xA1A1 - 0xFEFE。现在意义基本等同于国家最小字符编码集。支持中文的产品最小要支持所有GB2312字符的显示。

1995年制定的汉字扩展规范GBK1.0，简称GBK。收录了21886个符号，范围是0x8140 - 0xFEFE。现在多数电脑的字符集都是这个，向下编码兼容GB2312标准。

2000年的GB18030是取代GBK1.0的正式国家标准，该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。编码是变长的，其二字节部分与GBK兼容；四字节部分是扩充的字形、字位，其编码范围是首字节0x81-0xfe、二字节0x30-0x39、三字节0x81-0xfe、四字节0x30-0x39。向下编码兼容GBK1.0，当前使用中，GB18030和GBK的区别一般人无法区分(也没有多少人碰的上这种字)，所以一般GBK就通用指代了GB系列中比较复杂的那种编码。

繁体中文来说，有BIG5, CNS11643, HKSCS三种。贝壳实际应用比较少，下面可能存在错误，请大家指正。

BIG5是在CCCII不為政府單位採納，國家頒布的中文標準碼又不堪用的情況下。在1984年，由台北市電腦公會主導，聯合了十三家業者，

共同制定，并在2003年进行了修订(Big5-2003)，旨在提供一个小型基本字符集以便对当前的繁体中文字符进行编码。Big5-2003是Big5的扩展，仅有2个平面，包含13051个繁体中文字符和778个符号，共13829个字符。编码范围是0xA140 - 0xF9FE, 0xA1A1 - 0xF9FE。对于熟悉电脑的人来说，都知道Big5是繁体字的事实标准。

CNS11643在1992年制定，并在2004年进行了修订(称为CNS11643-2004)，旨在提供足够的字符编码以便对所有当前的繁体中文字符进行编码。CNS11643-2004是CNS11643的扩展，可以有 80 个编码平面。该标准支持： 8836 x 80 = 706,880 个编码点。原来的CNS11643标准仅有16个编码平面。在平面4以及平面12到15中，包含了台湾地区政府允许的所有法定人名用繁体中文字符。CNS11643直接取用了Big5的大部分编码，因此不考虑几个特例的情况下(准确的说，是两个)，CNS11643编码兼容了Big5。

香港增补字符集(HKSCS)原来叫做政府通用字库(GCCS)，分两个编码方案。其中Big5版是香港政府为big5加的3049个字，因此也可以说HKSCS编码兼容了BIg5。ISO 10646方案是香港政府在给Big5添加符号后向ISO标准委员会提交了申请的结果，和Big5的版本互相兼容，只是编码方案(不是编码方法)不一致而已。

再附加一点说明，一般我们说的编码转换，就是在Big5和GB2312间转换。鉴于繁体和简体文字的非严格对应性，转换可能存在误差。至于最大字符集组GB18030和CNS11643间的完美转换——还是等世界和平吧。

下面说明Unicode家族，根据网络上的介绍，原来Unicode联盟和ISO标准组织都要对整个人类的符号进行编码工作(背景音乐：数星星啊数星星～××)，后来两者联合，这事就成了(it was so，玩笑玩笑)。大家知道，中国文件和东南亚各国间互相交流，因此字符重复者甚众。其中CJK是原来中国(包括香港、台湾地区)与朝鲜、韩国、日本联合制定的三国文字集合，现在已经被收入Unicode中。Unicode是一个单纯的编码方案，不过编码方法就相对复杂了，分为UCS-2，UCS-4，UTF-8等等。

UCS-2和UCS-4是等长编码方法，简单来说就是U+65535以内的可以编码入UCS-2，以上就需要使用UCS-4了(目前这个范围还没有启用)。UCS-2总共有65535个编码点，又叫做UCS-4的BMP区域。本质上是使用大端点或者小端点编码方法直接编码，可以在字符串开始的地方加入FF FE或者FE FF加以判别。优点是将所有字符熔於一个体系，没有编码冲突问题，因此可以在一个容器内引用多国文字(例如在同一句话中引用简体和繁体中文)，效率非常高，但是有个致命缺点，不兼容ASCII。

为了解决这个问题，我们一般使用Unicode的时候，使用它的UTF-8编码方法。这个编码方法是非等长的，其中多数汉字需要使用三字节来存储。如果您看到有什么中文变成乱码后长度增加了一半的，那多数就是UTF-8编码。对于ASCII，UTF-8就是一字节码，于是就完整的兼容了ASCII。对于UCS-4中可能出现的最大编码来说，这时候就需要六字节来描述一个符号。因此可以想见，将来UTF-8是一定要灭亡的。

Reference:

[1].谈谈Unicode编码 http://www.windsn.com/article/viewmore.asp?id=227

[2].中文编码基础知识介绍 http://www.eygle.com/digest/2007/01/zhs16gbk_char.html

[3].The CJK package for LaTeX http://cjk.ffii.org/

[4].編碼標準 http://itbbs.saihu.com/archiver/tid-1943.html

[5].《香港增補字符集》 http://www.info.gov.hk/digital21/chi/hkscs/introduction.html

[6].Unicode Home Page http://www.unicode.org/