unicode字符集采用几个字节表示一个字符-Access教程-铛图网

unicode字符集采用几个字节表示一个字符

2024-06-24 16:37:40
忘川
Access教程

unicode字符集采用2个字节表示一个字符。

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

如果把各种文字编码形容为各地的方言，那么Unicode就是世界各国合作开发的一种语言。

在这种语言环境下，不会再有语言的编码冲突，在同屏下，可以显示任何语言的内容，这就是Unicode的最大好处。就是将世界上所有的文字用2个字节统一进行编码。那样，像这样统一编码，2个字节就已经足够容纳世界上所有的语言的大部分文字了。

Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。

早期的Unicode标准有UCS-2、UCS-4的说法。UCS-2用两个字节编码，UCS-4用4个字节编码。现在用的是UCS-2，即2个字节编码，而UCS-4是为了防止将来2个字节不够用才开发的。

UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面（plane）。每个平面根据第3个字节分为256行（row），每行有256个码位（cell）。group 0的平面0被称作BMP（Basic Multilingual Plane）。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。