python多进程只能一个一个进程运行

使用pool多进程无法正确的执行多进程。而是一个任务一个任务的运行。

import os
import time
import random
from concurrent.futures import ThreadPoolExecutor
from multiprocessing import Pool

import numpy as np
import pandas as pd
from collections import defaultdict
import itertools

# 读取病毒与GOterm关系
def read_virus_go(file_path):
    virus_to_go = {}
    df = pd.read_csv(file_path, sep='\t', index_col=0)
    for idx, row in df.iterrows():
        cols_with_1 = row[row == 1].index.tolist()
        virus_to_go[idx] = cols_with_1
    return virus_to_go

# 读取GOterm间的相似性
def read_go_similarity(file_path):
    go_similarity = defaultdict(np.float32)
    with open(file_path, 'r') as f:
        for line in f:
            go1, go2, _, sim = line.strip().split()
            if go1 > go2:
                go1, go2 = go2, go1
            go_similarity[(go1, go2)] = np.float32(sim)
    return go_similarity

# 计算Sim(go, G1)
def calc_sim_go_to_g(go, g_terms, go_similarity):
    # 如果go在g_terms中，返回1
    if go in g_terms:
        return 1
    return max(go_similarity[(min(go, g), max(go, g))] if (min(go, g), max(go, g)) in go_similarity else 0 for g in g_terms)



# 计算Sim(G1, G2)
def calc_sim_g1_g2(g1_terms, g2_terms, go_similarity):
    m, n = len(g1_terms), len(g2_terms)
    if m == 0 or n == 0:
        return 0
    sim_g1_g2 = sum(calc_sim_go_to_g(go, g2_terms, go_similarity) for go in g1_terms)
    sim_g2_g1 = sum(calc_sim_go_to_g(go, g1_terms, go_similarity) for go in g2_terms)
    return (sim_g1_g2 + sim_g2_g1) / (m + n)

# 计算相似度的任务函数
def compute_similarity_for_pair(pair, virus_to_go, disease_to_go, go_similarity):
    v1, v2 = pair
    sim = calc_sim_g1_g2(virus_to_go[v1], disease_to_go[v2], go_similarity)
    return (v1, v2, sim)

# 主函数
def main(virus_go_file, disease_go_file, go_similarity_file, output_file):
    # 读取数据
    virus_to_go = read_virus_go(virus_go_file)
    disease_to_go = read_virus_go(disease_go_file)
    go_similarity = read_go_similarity(go_similarity_file)

    # 病毒和疾病列表
    viruses = list(virus_to_go.keys())
    diseases = list(disease_to_go.keys())

    # 生成病毒和疾病对
    viruses_pairs = list(itertools.product(viruses, diseases))[:10]

    # 随机分成10份
    random.shuffle(viruses_pairs)
    num_splits = 5
    split_pairs = [viruses_pairs[i::num_splits] for i in range(num_splits)]

    # 使用多进程进行计算
    with Pool(processes=num_splits) as pool:
        # 每个进程处理一部分任务
        results = pool.starmap(compute_similarity_for_pair,
                               [(pair, virus_to_go, disease_to_go, go_similarity) for pair in itertools.chain(*split_pairs)])

    # 保存结果
    df = pd.DataFrame(results, columns=['Virus1', 'Virus2', 'Similarity'])
    df.to_csv(output_file, index=False, sep='\t')
    print(f"结果已保存到 {output_file}")




if __name__ == '__main__':
    # 文件路径（需要根据您的文件路径修改）
    virus_go_file = "../allGO/allGO_Virus"
    disease_go_file = "../allGO/allGO_Disease"
    go_similarity_file = "./id_combinations/out/allGoTermSmi.txt"
    output_file = "./result/virusAndDisease_similarity_results.txt"
    main(virus_go_file,disease_go_file, go_similarity_file, output_file)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

道友老李 JWE233286一种基于机器视觉的水表指针读数识别及修正的方法专利发明者 2025-01-07 17:14

关注

让【道友老李】来帮你解答，本回答参考gpt编写，并整理提供，如果还有疑问可以点击头像关注私信或评论。

如果答案让您满意，请采纳、关注，非常感谢！

在这段代码中，我们可以看到主要是使用了多进程的Pool来进行计算。但是由于使用了Pool，导致无法正确执行多进程，任务是一个一个地按顺序运行的，没有实现并发执行的效果。为了正确运行多进程，可以使用concurrent.futures库中的ThreadPoolExecutor来代替multiprocessing.Pool。这样可以实现多线程的并发执行效果。下面是修改后的代码示例：

from concurrent.futures import ThreadPoolExecutor
import numpy as np
import pandas as pd
from collections import defaultdict
import itertools
# 其他函数省略...
# 主函数
def main(virus_go_file, disease_go_file, go_similarity_file, output_file):
    # 读取数据
    virus_to_go = read_virus_go(virus_go_file)
    disease_to_go = read_virus_go(disease_go_file)
    go_similarity = read_go_similarity(go_similarity_file)
    
    # 病毒和疾病列表
    viruses = list(virus_to_go.keys())
    diseases = list(disease_to_go.keys())
    
    # 生成病毒和疾病对
    viruses_pairs = list(itertools.product(viruses, diseases))[:10]
    
    # 随机分成10份
    random.shuffle(viruses_pairs)
    num_splits = 5
    split_pairs = [viruses_pairs[i::num_splits] for i in range(num_splits)]
    
    # 使用ThreadPoolExecutor进行计算
    with ThreadPoolExecutor() as executor:
        # 并发执行每个任务
        results = list(executor.map(compute_similarity_for_pair, 
                                    [(pair, virus_to_go, disease_to_go, go_similarity) for pair in itertools.chain(*split_pairs)]))
    
    # 保存结果
    df = pd.DataFrame(results, columns=['Virus1', 'Virus2', 'Similarity'])
    df.to_csv(output_file, index=False, sep='\t')
    print(f"结果已保存到 {output_file}")
if __name__ == '__main__':
    # 其他代码省略...

通过使用ThreadPoolExecutor来实现多线程并发执行任务，可以提高程序的效率并正确地执行多进程任务。

报告相同问题？

关注问题

python开启多个子进程并行运行的方法
2020-12-25 12:55

本文实例讲述了python开启多个子进程并行运行的方法。分享给大家供大家参考。具体如下：这个python代码创建了多个process子进程，创建完成后先start()，最后统一join，这样所有子进程会并行执行。 from ...
理论讲解python多进程并发编程
2020-12-31 00:56

不管是并行与并发，在用户看起来都是‘同时’运行的，他们都只是一个任务而已，正在干活的是cpu，而一个cpu只能执行一个任务。并行就相当于有好多台设备，可以同时供好多人使用。而并发就相当于只有一台设备，供几...
python多进程读同一个文件_python 多进程读写文件
2020-12-08 21:44

weixin_39789525的博客 JoinableQueue, cpu_countimport csv####处理一条数据的方法def deal_line(line, writer, csv_file):writer.writerow((line[3], line[1]))csv_file.flush()#重点,在多进程中写文件需要尽快...
基于Python的多进程编程
2023-07-31 20:04

进程是自愿分配的基本单元，线程是CPU执行和调度的基本单位。进程之间的数据是独立的，同一个进程中的所有线程中的数据是共享的。...多进程编程同时运行了多个任务，并发执行的时间比单进程顺序执行要快。
python并发编程多进程 互斥锁原理解析
2021-01-01 15:15

运行多进程 每个子进程的内存空间是互相隔离的进程之间数据不能共享的互斥锁但是进程之间都是运行在一个操作系统上，进程之间数据不共享,但是共享同一套文件系统,所以访问同一个文件,或同一个打印终端, 是可以的...
python多进程多线程,多个程序同时运行
2021-04-08 13:47

陈逸飞_p的博客 python 多线程 多进程同时运行多任务要求 python 基础语法 python 文件目录操作 python 模块应用开发工具 pycharm 实现方法多任务的实现可以用进程和线程来实现进程—> 线程----> 多任务应用 多进程操作...
深入探究Python多进程编程：Multiprocessing模块基础与实战
2024-02-25 04:45

一键难忘的博客在Python编程中，多进程处理是一项关键的技术，特别是在需要处理大规模数据或执行耗时任务时。为了充分利用多核处理器的优势，Python提供了`multiprocessing`模块，使得并行编程变得更加容易。本文将深入探讨`...
Python多进程并发与多线程并发编程实例总结
2020-12-25 09:27

本文实例总结了Python多进程并发与多线程并发。分享给大家供大家参考，具体如下：这里对python支持的几种并发方式进行简单的总结。 Python支持的并发分为多线程并发与多进程并发（异步IO本文不涉及）。概念上来说，...
python 多进程同步运行多个函数
2021-11-12 16:19

Mr.Q的博客场景：一个进程控制吃饭函数，另一个进程控制睡觉函数，同步进行。结论，运行时间：不用进程 > 函数形式进程 == 类形式进程目录 1.不用进程 2.函数形式进程multiprocessing.Process() 3.类形式进程...
Python多进程编程
2023-02-25 21:46

代码输入中...的博客一 多进程编程Python实现多进程的方式有两种：一种方法是os模块中的fork方法，另一种是使用multiprocessing模块。前者仅适用于LINUX/UNIX操作系统，对Windows不支持，后者则是跨平台的实现方式。第一种方式：使用os...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月7日

python多进程只能一个一个进程运行

3条回答 默认 最新

问题事件

3条回答默认最新