令人不悦的Error-UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200b’的解决方法

最新推荐文章于 2025-02-17 23:13:05 发布

简说Python

最新推荐文章于 2025-02-17 23:13:05 发布

阅读量1.5w

点赞数 9

分类专栏：令人不悦的Error Python 文章标签： UnicodeEncodeError

本文链接：https://blog.csdn.net/qq_39241986/article/details/87896088

版权

Python 同时被 2 个专栏收录

89 篇文章

订阅专栏

令人不悦的Error

3 篇文章

订阅专栏

本文记录了作者在编程中遇到的UnicodeEncodeError问题及其解决过程，详细介绍了如何处理gbk编码无法解析特定Unicode字符的情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简单记录一下今天写代码遇到的一个错误，并附上我的解决方法。

大家好，我是老表，这个系列会记录我在编程中遇到的一些问题和解决方法，将直接以遇到的报错作为标题，这样更能方便其他学习者在浏览器中搜索到问题解决方法，也欢迎大家在评论、留言区多交流，谈谈自己的理解或者问题。

比如令人不悦的–requests.exceptions.ProxyError就是一个很好的示范。

问题

UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200b’

【2021.8.27更新】感谢网友靠谱的人在本文评论区提供的更好的解决方法：
在代码开头加上

import sys,io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

我最开始解决方法

首先，这个错误是指Unicode编码不能被解析成GBK编码（具体原因是：我的字符串里的这个Unicode编码已经超出了gbk编码的范围）
我第一时间想到的方法是把“\u200b”这个字符从我的字符串里移除，结果失败，查了一下，说有可能是排版自带的格式实际是不可见字符，所以无法移除（吐血.jpg），的确也是，我是通过爬虫拿下来的数据。
第二种方法，网络方法

# 方法一：直接忽略gbk编码，吐血.jpg，我就是要保存成gbk格式，无用
gbkTypeStr = unicodeTypeStr.encode("GBK", ‘ignore’)
# 方法二：扩大gbk的编码范围到GB18030，失败
gb18030TypeStr = unicodeTypeStr.encode("GB18030")

走头无路，还得靠自己，，，扣脑阔，我的方法：

            if "\u200b" in content:
                print("我错了")
                print(content)
                data_list.append("有错误字符")
            else :
                data_list.append(content)