Unicode字符集与UTF-8编码

发布网友发布时间：1天前

共1个回答

热心网友时间：1天前

在讨论字节流和字符流时，我们常常遇到Unicode字符集和UTF-8编码的混淆。很多文章对此解释不清，混淆了两者。在Java web开发中，处理乱码问题尤其关键，理解这两者至关重要。

字符集，如同字典，规定了字符和数字之间的对应关系，与计算机内部表示无关。例如，ASCII码表定义了0-127的数字与字符的对应，如大写字母'A'对应0x41，小写字母'a'对应0x61。

ASCII编码适用于英文，但对于汉字，ASCII显然不足。Unicode字符集的出现解决了这个问题，它设计为4字节来表示任何语言的字符，每个字符都有唯一的数字标识，即使是多语言共用的字符也有统一编码。

Unicode编码系统包含超过65535个字符，甚至扩展到了十万个以上，由Unicode组织推动，目标是统一字符编码。比如在知乎专栏，“海”字的Unicode码是28023，它在Unicode码表中对应汉字。

编码方案则是将这些数字在计算机中存储的方式。UTF-8是变长编码，对于ASCII字符直接使用一个字节，对于超出范围的字符，如汉字，使用多个字节，如110XXXXX 10XXXXXX格式。例如，汉字“海”的UTF-8编码为1110 0110, 10 110101, 10 110111。

在编程中，UTF-8编码的汉字通过字节流读入时保持原始编码，但字符流读入则显示为Unicode码。要深入了解这一点，可查看JDK源码中的sun/nio/cs/UTF_8.java。

此外，作业是尝试编码自己的名字并转换为UTF-8，以及探索JDK中其他的编码方式。课程内容包括红黑树、哈希表，以及完整的课程目录。

全部栏目

Unicode字符集与UTF-8编码