分词编码，如果有成千上万种格式，这个代码不能词性划分？

读取小说文件夹 自动读取编码 自动添加编码格式 自动转格式 遇到的问题

import os
import jieba.posseg as pseg
import chardet
import codecs

# 文件夹路径
source_folder = "/storage/emulated/0/文件/文本处理/"
output_folder = "/storage/emulated/0/文件/分词处理/"
merged_file = "/storage/emulated/0/文件/合并后文本.txt"

# 创建存储分词后文本的文件夹
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# 合并文本
def merge_text():
    merged_text = ""
    for filename in os.listdir(source_folder):
        if filename.endswith('.txt'):
            try:
                # 读取文本文件的编码并转换为 UTF-8 编码
                with open(os.path.join(source_folder, filename), 'rb') as f:
                    raw_data = f.read()
                    encoding = chardet.detect(raw_data)['encoding']
                with codecs.open(os.path.join(source_folder, filename), 'r', encoding=encoding) as f:
                    text = f.read()
                    merged_text += text + '。'  # 在每个文本末尾添加一个句号，表示一个句子结束
            except Exception as e:
                print(f"Error reading file {filename}: {e}")

    with open(merged_file, 'w', encoding='utf-8') as f:
        sentences = merged_text.split('。')
        for sentence in sentences:
            sentence = sentence.strip()
            if sentence:
                f.write(sentence + '。\n')

    print("文本合并并存储完成。")

# 分词并按词性划分
def segment_and_classify():
    # 读取合并后的文本内容
    with open(merged_file, 'r', encoding='utf-8') as f:
        text = f.read()

    # 分词并获取词性
    words_with_pos = pseg.cut(text)

    # 存储词性分类结果的字典
    pos_dict = {}

    # 将词语按照词性分类，并存储到不同的文件中
    for word, pos in words_with_pos:
        # 去除空格和换行符
        word = word.strip()
        if word:
            # 创建存储该词性词语的文件夹
            pos_folder = os.path.join(output_folder, pos)
            if not os.path.exists(pos_folder):
                os.makedirs(pos_folder)

            # 如果词性在字典中不存在，则创建一个列表存储对应的词语
            if pos not in pos_dict:
                pos_dict[pos] = []

            # 去重处理
            if word not in pos_dict[pos]:
                pos_dict[pos].append(word)

    # 将词语写入对应的文件中
    for pos, words in pos_dict.items():
        with open(os.path.join(output_folder, pos, f"{pos}.txt"), 'a', encoding='utf-8') as f:
            for word in words:
                f.write(word + '\n')

    print("分词并按词性划分存储完成。")

# 执行合并文本、转换为统一编码以及分词并按词性划分操作
merge_text()
segment_and_classify()


问了一上午机器人，给出的代码总是出错

/data/user/0/org.qpython.qpy/files/bin/qpy thon3.sh "/storage/emulated/0/qpython/小说 词性划分.py" && exit
python/小说词性划分.py" && exit          < 

Error reading file 异界潜规则.txt: 'gb2312 ' codec can't decode byte 0x84 in position  22924: illegal multibyte sequence
文本合并并存储完成。
Building prefix dict from the default dict ionary ...
Loading model from cache /storage/emulated /0/qpython/cache/jieba.cache
Loading model cost 2.227 seconds.
Prefix dict has been built successfully.
收起

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

赵灵越 2024-04-18 18:41

关注


import os
import jieba.posseg as pseg
import chardet
import codecs

# 文件夹路径
source_folder = "/storage/emulated/0/文件/文本处理/"
output_folder = "/storage/emulated/0/文件/分词处理/"
merged_file = "/storage/emulated/0/文件/合并后文本.txt"

# 创建存储分词后文本的文件夹
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

def convert_to_utf8(input_file, output_file):
    try:
        # 读取原始文件的编码
        with open(input_file, 'rb') as f:
            raw_data = f.read()
            encoding = chardet.detect(raw_data)['encoding']
            print(f"{input_file} 的编码是：{encoding}")
        # 如果编码是 GB2312，则尝试以 GB2312 编码打开文件并忽略错误字符
        if encoding == 'GB2312':
            text = raw_data.decode('GB2312', errors='ignore')
            encoding = 'GB2312 (processed)'
        else:
            # 使用原始编码格式打开文件并转换为 UTF-8 编码
            with codecs.open(input_file, 'r', encoding=encoding) as f:
                text = f.read()
        # 将内容写入新的 UTF-8 编码文件
        with open(output_file, 'w', encoding='utf-8') as f:
            f.write(text)
        print(f"转换文件 {input_file} 到 UTF-8 编码完成。")
    except Exception as e:
        print(f"转换文件 {input_file} 到 UTF-8 编码时发生错误：{e}")

def merge_text():
    merged_text = ""
    for filename in os.listdir(source_folder):
        if filename.endswith('.txt'):
            input_file = os.path.join(source_folder, filename)
            output_file = os.path.join(output_folder, f"{filename[:-4]}_utf8.txt")
            # 转换文件编码为 UTF-8
            convert_to_utf8(input_file, output_file)
            # 读取转换后的 UTF-8 编码文件内容
            with open(output_file, 'r', encoding='utf-8') as f:
                text = f.read()
                merged_text += text + '。'  # 在每个文本末尾添加一个句号，表示一个句子结束
    # 合并转换后的文本内容
    with open(merged_file, 'w', encoding='utf-8') as f:
        sentences = merged_text.split('。')
        for sentence in sentences:
            sentence = sentence.strip()
            if sentence:
                f.write(sentence + '。\n')
    print("文本合并并存储完成。")

def segment_and_classify():
    # 读取合并后的文本内容
    with open(merged_file, 'r', encoding='utf-8') as f:
        text = f.read()
    # 分词并获取词性
    words_with_pos = pseg.cut(text)
    # 存储词性分类结果的字典
    pos_dict = {}
    # 将词语按照词性分类，并存储到不同的文件中
    for word, pos in words_with_pos:
        # 去除空格和换行符
        word = word.strip()
        if word:
            # 创建存储该词性词语的文件夹
            pos_folder = os.path.join(output_folder, pos)
            if not os.path.exists(pos_folder):
                os.makedirs(pos_folder)
            # 如果词性在字典中不存在，则创建一个列表存储对应的词语
            if pos not in pos_dict:
                pos_dict[pos] = []
            # 去重处理
            if word not in pos_dict[pos]:
                pos_dict[pos].append(word)
    # 将词语写入对应的文件中
    for pos, words in pos_dict.items():
        with open(os.path.join(output_folder, pos, f"{pos}.txt"), 'a', encoding='utf-8') as f:
            for word in words:
                f.write(word + '\n')
    print("分词并按词性划分存储完成。")

# 执行合并文本、转换为统一编码以及分词并按词性划分操作
merge_text()
segment_and_classify()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

IT行业都有哪些职位，初学者如何选择才能够快速进入这个行业？
2019-05-14 14:54

IT修真院的博客【本人性格不好，被惹到了必然句句带脏字，所以评论中如果有不开眼的，请慎重。另外，这篇回答从头到尾都是我自己的个人偏见，绝对不客观，也绝对不会为本答案负责。所以，有自己正常思维的请不要再看下去了。】...
Go 语言在大数据与人工智能领域的尝试
2025-04-27 13:09

数字魔方操控师的博客 Go 语言的诞生源于 Google 工程师们对现有...为了寻求一种更高效、更简洁、更适合现代分布式系统开发的编程语言，Google 于 2007 年启动了 Go 语言项目。经过多年的研发和内部使用，Go 语言于 2009 年正式对外发布。
设计一个单选题考试程序python_Python123计算机等级考试二级Python语言与程序设计通关指南七Python 计算生态...
2020-10-21 19:27

weixin_39826342的博客可以单击查看看见更大的世界，遇见更好的自己 See a better world to meet better for ourselves.1.MMdnn----MMdnn 是一个深度学习的模型工具集，它能够互转模型文件、可视化模型结构、自动产生训练/推演的代码、...
IT行业都有哪些职位，初学者（0基础，新人）该如何选择，才能够快速进入这个行业？...
2019-10-04 22:56

dedong4563的博客【本人性格不好，被惹到了必然句句带脏字，所以评论中如果有不开眼的，请慎重。另外，这篇回答从头到尾都是我自己的个人偏见，绝对不客观，也绝对不会为本答案负责。所以，有自己正常思维的请不要再看下去了。 ...
机器学习入门基础（万字总结）（建议收藏！！！）
2022-12-04 22:36

subsistent的博客聚类：一种探索性分析，在数据结构未知的情况下，根据相似度将样本划分为不同的群集或子集，不同聚类的样本有很大的差异，以便发现数据的类别和结构。分类：根据已知样本的某些特征确定新样本所属的类别。通过特征...
【从入门到高阶】NLP 算法的流程、主要任务及涉及算法，全都囊括了(Python 实战)
2022-05-23 18:35

Python数据挖掘的博客 NLP是人工智能领域历史较为悠久的领域，但由于语言的复杂性（语言表达多样性/歧义/模糊等等），如今的发展及收效相对缓慢。比尔·盖茨曾说过，“NLP是 AI 皇冠上的明珠。” 在光鲜绚丽的同时，却可望而不可及（…）...
基于国产操作系的问答机器人——博客2
2024-05-29 14:09

JuGLe_的博客问答系统接受的时自然语言问句，为了有效控制研究变因，多会订定可接受的问题类型来限制研究范围。最基本的类型为“仿真陈述回答”，此类系统根绝答案语料所述资讯，取出一小段字串作为答案。
（转载）IT行业都有哪些职位，初学者（0基础，新人）该如何选择，才能够快速进入这个行业？
2017-10-17 20:39

Gwen小苏的博客作者：暗灭 ...互联网行业的薪资水准相对较高，刚入行一个月，半年，或者一年超过其他行业薪资很正常。那么，互联网行业究竟有哪些职位呢，又分别适合哪些传统行业转型？ 1.产品2.UI3.CSS4.JS5....
爬虫教程（ 6 ） --- 爬虫进阶、扩展
2022-07-11 07:35

「已注销」的博客 1. 前言 1. 先看一个最简单的爬虫。 import requests ...r = requests.get(url) ...上面那个最简单的爬虫，是一个不完整的残疾的爬虫。因为爬虫程序通常需要做的事情如下： 1)给定的种子 URLs，...
《知识图谱》赵军学习笔记
2021-12-05 21:10

renhengzhi2019的博客知识图谱读书笔记基于《知识图谱》赵军书籍的读书笔记整理，涵盖每个章节的内容。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月18日

分词编码，如果有成千上万种格式，这个代码不能词性划分？

5条回答 默认 最新

问题事件

5条回答默认最新