当前位置:首页 > 生活技巧 > 正文内容

编码方式(北大青鸟11s汉字机内码表)

爱搭配1周前 (09-14)生活技巧88

编码方式(北大青鸟11s汉字机内码表)

Unicode 字符集和 UTF-8、UTF-16、UTF-32 编码

原创2021-09-11 11:46迹忆客

ASCII码

在较早的计算时代,ASCII 代码用于表示字符。英语只有 26 个字母和一些其他特殊字符和符号。

下表是 ASCII 码对照表,包含字符及其相应的十进制和十六进制值。

ASCII 码对照表

从上表可以推断出,ASCII 值可以在十进制数系统中表示为 0 到 127。让我们看看 0 和 127 在 8 位字节中的二进制表示。

0 表示为

0 的二进制表示

127表示为

127 二进制表示

从上面的二进制表示可以推断,十进制值 0 到 127 可以使用 7 位来表示,而第 8 位是空闲的。

警告 从这个地方起,混乱开始了。

人们想出了不同的方法来使用剩余的第八位,从而使其可以表示从 128 到 255 的十进制值。那么冲突就发生了。例如,越南人使用十进制值 182 来表示越南字母 ờ,而印度人使用相同的值 182 来表示印地语字母घ。因此,如果印度人写的电子邮件包含字母घ并且它被越南人阅读,那么将会显示为ờ。显然这不是预期的效果。

那么如何解决这个问题呢,接下来就该 Unicode 出场了。


Unicode 和代码点

Unicode 字符集将世界上的每个字符都映射到一个唯一的数字上。这确保了不同语言的字母之间没有冲突。这些数字与平台无关。

这些唯一的数字在 unicode 术语中称为代码点。

让我们看看它们是如何被引用的。

使用代码点引用 拉丁字符ṍ

U+1E4D

U+ 表示 unicode,1E4D是分配给字符 ṍ 的十六进制值。

英文字母A表示为 U+0041

好了,了解了这些,接下来该是重头戏了


UTF-8 编码

现在我们知道什么是 unicode 以及如何将世界上的每个字母分配给一个唯一的代码点,我们需要一种在计算机内存中表示这些代码点的方法。这就是字符编码登场的地方。 其中最为人们所熟知的就是 UTF-8 编码。

UTF-8 编码是一种大小可变的编码方案,用于表示内存中的 unicode 代码点。大小可变编码意味着代码点根据其大小使用 1、2、3 或 4 个字节表示。

UTF-8 1 字节编码

1个字节编码的标识是第一个比特位为0。

UTF8 1字节编码表示方式

英文字母A的 unicode 代码点为 U+0041。它的二进制表示是1000001。

A 以 UTF-8 编码表示为

01000001

红色的0位表示使用1字节编码,其余位代表码位

UTF-8 2 字节编码

代码点为 U+00F1 的拉丁字母的二进制值11110001。该值大于可以使用 1 字节编码格式表示的最大值,因此该字母表将使用 UTF-8 2 字节编码表示。

2 字节编码的方式是由第一个字节比特位中的高三位的比特序列110和第二个字节比特位中的高二位的比特序列10来标识。

UTF8 2字节编码方式表示

Unicode 代码点U+百思特网00F1的二进制值是1111 0001。用2字节编码格式填充这些位,我们得到如下所示的的UTF-8 2字节编码表示。

填充是从映射到第二个字节的最低有效位的代码点的最低有效位开始完成的。

1100001110110001

蓝色的二进制数字11110001代表码位U+00F1的二进制值,百思特网红色的是2字节编码标识符。黑色零用于填充字节中的空位。

UTF-8 3 字节编码

具有代码点U+1E4D的拉丁字符ṍ使用 3 字节编码表示,因为它大于使用 2 字节编码可以表示的最大值。

3 字节编码通过第一个字节中的位序列1110 和第二个和第三个字节中的 10的存在来标识。

UTF8 3字节编码表示

ṍ 十六进制代码点 0x1E4D,对应的二进制值为1111001001101。将这些位填充到上述编码格式中,我们得到了下面所示的 ṍ 的UTF-8 3 字节编码表示。

填充是从映射到第三个字节的最低有效位的代码点的最低有效位开始进行的。

111000011011100110百思特网001101

红色位表示 3 字节编码,黑色位是填充位,蓝色位表示代码点。

UTF-8 4 字节编码

表情符号的Unicode代码点U+1F62D。这大于可以使用 3 字节编码表示的最大值,因此将使用 4 字节编码表示。

4 字节编码通过第一个字节中的11110和随后的第二个、第三个和第四个字节中的10来标识。

UTF8 4字节编码表示

U+1F62D的二进制表示是11111011000101101。将这些位填入上述编码格式,我们就得到了的UTF-8 4字节编码。代码点的最低有效位映射到第四个字节的最低有效位,依此类推。


扫描二维码推送至手机访问。

版权声明:本文由爱搭配发布,如需转载请注明出处。

本文链接:https://90dapei.com/article/58247.html

标签: 资讯
分享给朋友:

相关文章

水果玉米煮多久

水果玉米煮多久

水果玉米煮多久 水果玉米煮多久?水果玉米是近几年新出的一种产品,鲜嫩脆甜,可以生吃也可以煮着吃,生吃熟吃都很脆甜可口,而且营养价值高。我们一起来看看水果玉米要煮多久? 水果玉米...

爱胡思乱想怎么办(总爱胡思乱想的人该怎么办)

爱胡思乱想怎么办(总爱胡思乱想的人该怎么办)

爱胡思乱想怎么办(总爱胡思乱想的人该怎么办) 人的大脑非常奇怪,明明你不想去想某些事却不由自主地胡思乱想,有时候会因为异性的一句话而想入非非:“她是不是对我有意思,我该怎么和她说”;有时候因为朋友的...

什么火锅好吃 最好吃的火锅

什么火锅好吃 最好吃的火锅

什么火锅好吃 最好吃的火锅 什么火锅好吃?天气渐凉,越来越多的朋友们开始吃火锅了,那什么火锅好吃呢?下面小编就告诉大家什么火锅好吃以及最好吃的火锅吧! 这的看个人口味了。比如老...

炒白菜的做法(家庭版炒白菜)

炒白菜的做法(家庭版炒白菜)

炒白菜的做法(家庭版炒白菜) 平时做菜的时候加上一点肉,更好吃一些,做法不难,更为简单,白菜是家庭当中常备的一种菜,既然是很常见的菜,怎么做才会更百思特网好吃,口感上不如,咱们今天就一起来学学家庭版...

九寨沟旅游心得(总结怎么游览九寨沟)

九寨沟旅游心得(总结怎么游览九寨沟)

九百思特网寨沟旅游心得(总结怎么游览九寨沟) 九寨沟是一个高山山水风景名胜区。它的水特别出名。这是最有看点的。但季节也很关键。因为它还有另外一个特别有名的,就是彩林。所以一年当中应该是10月15日左...