1980 年,中国发布了第一个汉字编码标准,也即 GB2312 ,全称 《信息交换用汉字编码字符集·基本集》,通常简称 GB (“国标”汉语拼音首字母), 共收录了 6763 个常用的汉字和字符,此标准于次年5月实施,它满足了日常 99% 汉字的使用需求 GBK(2个字节) 由于有些汉字是在 GB2312 标准发布之后才简化的,还有一些人...
● UNICODE 在网络传输中,出现了两个标准 UTF-8 和 UTF-16,分别每次传输 8个位和 16个位。 于是就会有人产生疑问,UTF-8 既然能保存那么多文字、符号,为什么国内还有这么多使用 GBK 等编码的人?因为 UTF-8 等编码体积比较大,占电脑空间比较多,如果面向的使用人群绝大部分都是中国人,用 GBK 等编码也可以。但...
上图中 红色栏 表示 ASICII 的编码范围,绿色栏表示 GB2312 编码范围 GBK 编码 和GB2312 一样,GBK 也是双字节编码,为了向下兼容 GB2312, GBK 使用了 GB2312 没有用到的编码区域,总的编码范围是: 第一个字节 0x81–0xFE,第二个字节 0x40–0xFE, 具体的编码范围细分如下 上述表格中,红色栏是 GBK 中包含...
UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示,也就是必须两者都是utf-8才行。 ASCII 主要用于显示现代英语和其他西欧语言。 GBK 是国家编码,通用性比UTF8差, GBK包含全部中文字符; GB2312之类的都算是gbk编码。 GB18030 GB18030收录了70244个汉字和字符,更加全面,与 GB 2312-1980 和 GBK 兼容。
2、对于大部分中文字符来说,采用 GB18030 编码的话,只需两个字节,如果采用 UTF8 编码,就需要三个字节, 所以用 GB18030 存储和传输更节省空间 ASICII、GB2312、GBK、GB18030 以及 UTF8 的关系 它们的关系如下图 由上图可知,GB2312、GBK、GB18030 以及 UTF8 共同点是都兼容 ASICII ...
GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩(CJK)汉字,并包含了BIG5编码中的所有汉字; ...
EUC-CN可以理解为GB2312的别名,和GB2312完全相同。 区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。HZ和ISO-2022-CN是对应区位码字符集的另外两种编码,都是用7位编码空间来支持汉字。区位码和GB2312编码的关系有点像 Unicode和UTF-8。
最早的GB编码是GB2312,后来有了在GB2312*础上扩展的GBK,最新的是GB18030,加入了一些国内少数民族的文字,一些生僻字被编到了4个字节,每扩展一次都完全保留之前版本的编码,所以每个新版本都向下兼容。 这里要指出的是,虽然都用多个字节表示一个字符,但是GB类的汉字编码与后文的Unicode编码方案UTF-8、UTF-16、UTF-...
UTF-16在Windows平台上是默认的Unicode编码方式,使用wchar_t表示,所有wchar_t类型的字符串都采用UTF-16编码,操作方便。每个wchar_t表示一个字符,避免了汉字需要3个char表示的情况。但UTF-16在不同平台上的wchar_t大小不统一,存在代码移植上的挑战。此外,UTF-16在排序、网络传输大小端问题和字节序...
从unicode二进制到utf-8二进制的转换,类比为不同货币之间的兑换,比如UTF-8如美元,广泛通用;ASCII如英镑,在西欧使用;GBK如人民币,收录了21886个汉字和符号;GB18030在GBK基础上增加了中国少数民族的货币,GB2312则是在ASCII基础上的简体汉字扩展。Unicode则如同黄金,通过unicode编码UTF-8与GBK才能...