Unicode,UTF-8和GBK编码方式，你真的搞懂了吗？

汤米先生

于 2021-07-21 20:03:40 发布

阅读量4.6k

点赞数 5

分类专栏：计算机原理文章标签：乱码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tom197/article/details/118974142

版权

前言

在介绍这些编码方式之前我们先要谈谈ASCII码，在计算机中，1 字节对应 8 位二进制数，而每位二进制数有 0、1 两种状态，因此 1 字节可以组合出 256 种状态。如果这 256 中状态每一个都对应一个符号，就能通过 1 字节的数据表示 256 个字符。于是有人就制定了一套编码，描述英语中的字符和这 8 位二进制数的对应关系，这被称为 ASCII 码。但是世界语言那么多，128个字符又怎么能够呢？于是Unicode编码就出现了。
在这里插入图片描述

一. Unicode编码

Unicode 没有规定字符对应的二进制码如何存储，它包含世界上所有的语言字符，字符顺序越靠后的，它存储所需的字节数就越多，所占的空间也就越大。如果统一成Unicode编码，乱码问题也就解决了，但是如果你写的全是英文的话（ASCII中本该用最少字节的字符），用Unicode编码比ASCII编码需要多一倍甚至更多的空间，这就会导致存储和网络传输时的一般数据会非常多，极大的浪费了空间。意识到这个问题后，UTF编码就诞生了。

二. UTF-8编码

Unicode Transformation Format，简称UTF，对unicode字符进行转换，以便于在存储和网络传输时可以节省空间。
UTF编码有3个版本：

UTF-32 ：使用4个字节表示所有字符。一定程度的减少了浪费。

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

汤米先生 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。