ftfy:修正小段乱码(Mojibake)为正常文本的Python库

背景

在开发小红花·文摘的早期,就发现一个问题:偶尔有些文章的标题会出现乱码,见下图红框处:乱码页面截图
当时就花了不少时间去琢磨字符串编解码,包括使用chardet去猜测编码也没用,因为猜测的结果是utf-8,但这显然是不知道原来是什么编码又被错误使用utf-8编码的结果,不知道原来的编码自然不可能还原。就这样始终不得其法,又因为有这种情况的内容很少,虽然我有点强迫症,但衡量成本收益比,当时就决定算了。

AI

这段时间又发现几篇,正好人相当闲一点,就又思考起来。突然灵机一闪:这乱码是啥,能不能用 AI 猜出来?马上调 ChatGPT 出马,居然手上擒来:

根据您提供的乱码,我猜测这个乱码是由于编码格式不匹配所致。

从字面上看,这个字符串包含很多我等字符号,这是旧版本的 GB2312 编码格式中常见的错误。

然而,这个字符串中也有不幸来的非 ASCII 字符,而 ASCII 标准并不支持这些字符。
根据我的推测,这个字符串应该是这句话的乱码:

我第一次给 Linux 内核做贡献,不仅被剥夺了,并且遭到了维护者的轻视。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值