- 博客(60)
- 资源 (18)
- 收藏
- 关注

原创 UViT-Seg:一种基于 ViT 和 U-Net 的高效框架,用于在结肠镜检查和 WCE 图像中准确分割结直肠息肉(Python代码实现+完整论文+数据集+UI界面)
U-Net 最初由 Ronneberger 等人 [20] 引入,用于生物医学图像分割,作为各种图像分割任务的首选架构而广受欢迎。这种架构植根于全卷积网络的基础 [48U-Net 模型包括两个关键组件:编码器和解码器路径。编码器的作用是使用一系列具有 3x3 滤波器的卷积层提取深度特征,然后是 ReLU 激活层和 MaxPooling 层。相反,解码器负责创建输出分割映射,采用上采样、卷积、ReLU 激活和 MaxPooling 层等作。
2025-03-06 13:59:58
1296

原创 基于深度学习的人脸情绪识别检测系统(VGG、CNN、ResNet)
代码包括了人脸情绪识别模型训练版块,算法版块(CNN、VGG、ResNet)三种。有每一种算法的测试代码。其次,人脸情绪识别的训练数据有Kaggle和自行采集本地数据2种方式。有UI界面,实时检测人脸情绪变化,以及不同的人脸情绪百分比。
2023-09-20 16:27:27
19648
61
原创 20个Agent开源项目附加源码
以下从项目核心亮点、关键能力和适用场景三个维度,对20个Agent开源项目进行总结提炼:一、通用Agent框架首创自主型Agent,具备目标拆解、长时记忆和插件扩展能力,可自动化处理复杂任务链。模块化架构支持多LLM集成,提供丰富工具链编排方案,适合构建企业级对话系统。微软推出的多Agent协作框架,通过GroupChat机制实现动态交互,擅长代码生成与问题协同解决。配备可视化控制台与Agent市场,支持目标规划与工具集成,助力快速搭建自动化工作流。二、多智能体系统。
2025-05-21 01:46:59
384
原创 基于大模型微调的智能医疗诊断协助系统(LLM,RAG,Agent)
本文介绍了一个基于Agent的智能医疗辅助诊断系统项目,详细描述了其主框架、项目结构、技术实现和部署步骤。该系统利用多智能体架构,集成了大语言模型、计算机视觉模型、检索增强生成(RAG)、实时网络搜索和人工验证等功能,旨在为医疗诊断、研究和患者交互提供智能化支持。项目采用模块化设计和分层架构,前端使用HTML、CSS、JavaScript构建用户界面,后端使用FastAPI处理业务逻辑,数据层使用Qdrant向量数据库存储知识数据。技术栈包括FastAPI、LangGraph、LangChain、Qdran
2025-05-20 13:15:27
704
原创 使用 ResUNet++、增强对结直肠息肉分割的图像识别综合研究
癌症是当代社会的主要健康问题,结直肠癌 (CRC) 是全球癌症发病率第三大、死亡率第二大的类型[2]。结直肠息肉是 CRC 的前体。通过高质量的结肠镜检查和定期筛查及早发现息肉是预防结直肠癌的基石[3],因为腺瘤等肿瘤病变可以在转化为癌症之前被发现并切除,从而降低 CRC 的发病率和死亡率。无论结肠镜检查在降低癌症负担方面取得的成就如何,估计腺瘤漏诊率约为 6-27%[5]。在最近一项对 8 项随机串联结肠镜检查研究的汇总分析中,小于 10 mm 的息肉、无蒂息肉和扁平息肉[6]最常被漏诊[7]。
2025-04-05 21:33:58
806
原创 【论文阅读】MediScan: A Framework of U-Health and Prognostic AI Assessment on Medical Imaging
随着技术的进步,健康科学和人工智能 (AI) 的融合取得了显着进步。现代卫生系统旨在简化患者诊断。然而,挑战在于为患者和医生提供基于 AI 的预防措施,以实现更准确的风险评估。拟议的医疗保健系统旨在将患者、医生、实验室、药房和管理人员的用例及其主要功能集成到一个平台上。拟议的框架还可以处理显微图像、CT 扫描、X 射线和 MRI 来对恶性肿瘤进行分类,并为医生提供一套用于患者风险评估的 AI 预防措施。
2025-04-05 21:16:51
898
1
原创 论文阅读:2023_Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables
想象一下,你可以在公园里听到鸟儿的啁啾,而不会听到其他徒步者的闲聊,或者可以在繁忙的街道上屏蔽交通噪音,但仍能听到紧急警报声和汽车喇叭声。我们引入语义听觉,这是一种可听到设备的新功能,使它们能够实时地关注或忽略来自现实世界环境的特定声音,同时也保留空间线索。为实现这一目标,本文做出了两个技术贡献:1)提出了第一个神经网络,可以在干扰声音和背景噪声存在的情况下实现双耳目标声音提取,2)设计了一种训练方法,使系统可以泛化到现实世界的使用。
2025-03-22 13:03:07
842
1
原创 基于深度学习的多模态人脸情绪识别研究与实现(视频+图像+语音)
这是一个结合图像和音频的情绪识别系统。确定完整系统的组成部分:数据收集与处理、模型设计与训练、多模态融合、系统集成、部署优化、用户界面等。详细说明,还要给出详细的代码框架和工具。包括如何处理实时数据流,如何同步音频和视频,以及如何解决实际中的噪声和计算资源限制问题。另外,对评估指标和调优方法给出具体实现过程和代码,以确保系统在实际中的效果。构建一个完整的端到端多模态情绪识别系统(图像+音频),需要从数据采集、模型训练、系统集成到部署优化全流程设计。
2025-03-13 14:05:15
7562
15
原创 人脸识别之数据集中 PI20 和 CFMT 之间关联的模型预测贝叶斯(Python+论文代码实现)
代码文件数据文件本文提供了许多数据文件,但它们作为原始数据的审计跟踪存在,这些数据被合并为用于分析的单个数据。IDAgeGenderPI20CFMT %Datasets 文件夹此文件夹包含来自其他 OSF 页面或通过与作者的个人通信的原始数据,从中获取相关值(年龄、性别、PI20 和 CFMT 分数)。我们这里的目标是测试 CFMT(人脸识别的客观测量)和 PI20(人脸识别的主观测量)之间的关联在自我指责为有问题的个体群体和规范样本之间是否不同。我们将使用贝叶斯分层建模来拟合线性回归并恢复斜率。
2025-03-11 21:07:28
921
原创 情绪分化在情绪识别中的作用
我们为不太知名或不经常使用的任务附加文件: - 情绪分辨任务 (ED) (附件) - AERT (阿姆斯特丹情绪识别测试) (附件) - RMET(Reading the Mind in the Eyes 测试) - GERT(日内瓦情感识别测试)- GERT 是一项情感识别任务,由 83 个简短的音频视频剪辑组成,由 5 名男性和 5 名女性扮演。在第一项研究中,我们使用阿姆斯特丹情绪识别测试 (AERT) 没有发现情绪分化 (ED) 和情绪识别之间的关系,因此我们想使用额外的措施来复制这一发现。
2025-03-11 19:56:58
788
原创 MuMu-LLaMA:通过大型语言模型进行多模态音乐理解和生成(Python代码实现+论文)
文本到音乐生成(T2M-Gen)面临的主要障碍是缺乏带有自然语言描述的大规模公开音乐数据集。为此,我们提出音乐理解大语言模型(MU-LLaMA),该模型能够回答音乐相关问题并为音乐文件生成字幕。我们的模型使用预训练的MERT模型提取音频表征作为音乐特征。然而,获取适合训练MU-LLaMA模型的数据集仍具挑战,因为现有公开音频问答数据集缺乏开放式音乐问答所需的深度。为填补这一空白,我们提出从现有音频字幕数据集生成问答对的方法,并推出专为回答开放式音乐问题设计的MusicQA数据集。
2025-03-08 00:24:41
889
原创 基于通用与病理学基础模型的细胞分割与分类实现(Python实现+代码数据)
然而,针对细胞分析等专业任务,领域专用的病理学基础模型相较于通用模型的优势仍未被充分探索。本研究通过分析应用于细胞实例分割(CS)和分类(CC)的多级补丁嵌入,探究两类模型间的表征学习差距。我们采用编码器-解码器架构,编码器包括卷积网络、视觉变换器(ViT)及混合网络(预训练于ImageNet-22K或LVD-142M数据集,代表通用模型),并与基于数十万张病理全切片图像(WSI)训练的UNI、Virchow2和Prov-GigaPath等病理学专用ViT编码器对比。
2025-03-06 12:48:45
856
原创 遥感领域深度学习的应用
摘要——遥感图像分割对于地球观测,支撑环境监测和城市规划等应用。由于遥感图像中可用的注释数据有限,许多研究都将数据增强作为缓解深度学习网络过拟合的手段。然而,一些现有的数据增强策略依赖于简单的转换,可能不足以增强数据多样性或模型泛化能力。本文提出了一种新的增强策略 -- 聚块混合马赛克 (clusted-Patch-Mixed Mosaic(CP2M),旨在解决这些限制。CP2M集成了一个马赛克增强阶段和一个集群补丁混合阶段。
2025-03-05 13:35:38
941
原创 DAViMNet:基于状态空间模型的域自适应目标检测
为解决这些问题,我们提出了一种混合域自适应曼巴 - 变压器(Hybrid Domain-Adaptive Mamba-Transformer)架构,该架构将曼巴(Mamba)高效的状态空间建模与注意力机制相结合,以应对特定域的空间和通道变化。每个混合块集成了域自适应曼巴(DAMamba)块和注意力机制:DAMamba 采用空间和通道状态空间模型(SSMs)对域变化进行自适应建模,而注意力机制利用自注意力增强域内特征,利用交叉注意力实现源域与目标域的有效对齐。
2025-03-05 13:08:18
315
原创 面向多任务的夜间雾度成像增强器,用于视觉驱动测量系统(Python实现)
显著目标检测(SOD)在视觉驱动测量系统(VMS)中起着至关重要的作用,它有助于检测和分割图像中的关键视觉元素。然而,诸如白天雾霾、低光照以及夜间雾霾等恶劣成像条件会严重降低图像质量,使显著目标检测过程变得复杂。为应对这些挑战,我们提出了一种面向多任务的夜间雾度成像增强器(MToIE),它集成了白天去雾、低光照增强和夜间去雾三项任务。
2025-03-05 12:56:16
899
原创 零基础学习之——深度学习算法介绍01
2014年牛津大学Visual Geometry Group提出的VGG网络[1],通过系统性探索CNN深度与性能关系,在ImageNet ILSVRC竞赛中取得突破性成果(物体分类第二名,物体检测第一名)。其核心创新在于采用小尺寸卷积核构建深层网络,并通过模块化设计实现参数数量的渐进式增长。
2025-03-04 13:32:49
1096
原创 MambaMorph:基于 Mamba 的医学 MR-CT 可变形配准框架
跨模态(如MR-CT、T1-T2)体素级空间对应在医学图像分析中至关重要。然而,现有配准方法在精度和临床适用性方面仍存在不足。本文提出。
2025-03-03 13:59:02
1050
4
原创 基于MLLMs的3D医学图像分析(Python代码实现+数据可视化分析)
医学图像分析对临床诊断和治疗至关重要,而多模态大语言模型(MLLMs)的应用日益广泛。然而,先前研究主要集中于2D医学图像,尽管3D图像蕴含更丰富的空间信息,但其分析仍处于探索不足的领域。本文旨在推动基于MLLMs的3D医学图像分析。为此,我们构建了大规模3D多模态医学数据集M3D-Data,包含12万图像-文本对和66.2万指令-响应对,覆盖图像-文本检索、报告生成、视觉问答、定位与分割等多种任务。同时,我们提出了通用型3D医学MLLM模型M3D-LaMed。
2025-03-03 13:44:25
990
原创 基于提示驱动的潜在领域泛化的医学图像分类方法(Python实现代码和数据分析)
无监督领域发现:基于ViT浅层CLS令牌的风格特征聚类生成伪领域标签;领域提示学习:通过领域提示生成器与混合策略优化模型,提升跨领域泛化能力。
2025-03-03 13:14:45
1214
原创 Magic 1-For-1: 在一分钟内生成一分钟视频片段(基于Python实现,视频生成模型)
在本技术报告中,我们介绍了 Magic 1-For-1 (Magic141),这是一种高效的视频生成模型,具有优化的内存消耗和推理延迟。关键思想很简单:将文本到视频生成任务分解为两个单独的更简单的扩散步骤蒸馏任务,即文本到图像生成和图像到视频生成。我们验证了使用相同的优化算法,image-to-video 任务确实比 text-to-video 任务更容易收敛。我们还从三个方面探索了一系列优化技巧,以降低训练图像到视频 (I2V) 模型的计算成本:1) 通过使用多模态先验条件注入来加速模型收敛;2) 通过应
2025-03-03 12:33:25
1331
原创 通过检索增强生成技术与大语言模型推进网络事件时间线分析
摘要网络时间线分析或取证时间线分析在数字取证和事件响应 (DFIR) 调查中至关重要。它涉及检查伪影和事件(尤其是它们的时间戳和相关元数据),以检测异常、建立相关性并重建事件的详细序列。传统方法依赖于处理结构化工件,例如日志和文件系统元数据,使用多种专用工具进行证据识别、特征提取和时间线重建。本文介绍了一个创新框架 GenDFIR,这是一种由大型语言模型 (LLM) 功能提供支持的特定于上下文的方法。
2025-02-18 14:30:57
944
原创 使用卷积神经网络(CNN)对颜色失真情况下进行数字识别
第 2 节列出了本研究的实验设计。它从2.1 节开始,说明了用于执行这项研究的工具。然后在中,提供了如何将每个数据集加载、处理和摄取到神经网络模型中的过程。在中,显示了用于评估数据集的模型、选择数据集的原因以及所做的修改。在第 2.4 节中,给出了判断这些模型在数据集中的有效性的指标。然后在中,描述了执行的测试用例的完整列表。最后,第 2.5 节以我们对每个测试用例如何执行的初始假设结束。第 3 节量化了我们的研究结果。这包括全面的表格,其中显示了每个测试的输出以及每个测试的指标。
2025-02-17 22:25:36
1270
原创 基于网络摄像头的 CNN 模型进行实时注视估计进行人机交互Python实现
Table 1. Percentage of gaze fixation in different regions for image and video.点击这里看文章最后(Python代码和实现数据结果)
2025-02-17 21:55:17
1248
原创 使用神经网络对驾驶数据进行道路类型分类
Table 2. The selected parameter set from the OBD-II standard for data logging.Table 3. Summary of the four-month measurement.对于集合 S' 的每个元素,计算最大速度 (M)、平均非空闲速度 (N)、平均速度梯度 (G) 和标签向量 (L) 的模式。在原始方法中,使用速度时间驻留时间而不是平均速度梯度,但未定义如何确定此值。前三个指标 (M, N, G) 具有不同的数量级,并且对类的确
2025-02-17 19:46:02
864
原创 用于计算机断层扫描中胰腺导管腺癌检测的全自动深度学习框架
所提出的模型在整个外部测试集中的最大 AUC 为 0.914,在 2 cm 大小的肿瘤亚组中< 0.876,这表明最先进的深度学习模型能够识别小的 PDAC 病变,并可能有助于放射科医生进行早期 PDAC 诊断。在患者层面,然后根据模型归类为癌性的斑块的比例来确定肿瘤的存在。作者在外部测试集上测试了该模型,基于补丁的分类器的 AUC-ROC 为 0.750 (95% CI (0.749–0.752)),基于患者的分类器的 AUC-ROC 为 0.920 (95% CI (0.891–0.948)) [
2025-02-17 19:25:55
1131
原创 ML 乳腺癌预测
给出的所需元器件库所需的元器件库也列在 Libraries Used (使用的元器件库) 下方。通过创建数据帧并输入准确率分数和相应的机器学习模型,比较了 4 种机器学习模型的预测。测试训练拆分如下: 训练(398 行) : 测试(171 行) :: 70 : 30。创建了一个机器学习模型,通过分析数据集中给出的因素和变量来预测乳腺癌。图 II:这是定义数据集中给定的不同变量/因素之间相关性的热图。删除数据集中不需要的列:'Unnamed: 32','id'。我们想使用不同的其他因素找出癌症的类型。
2025-02-17 19:12:46
975
原创 AI 与人工生成的图像检测研究
介绍¶区分由人工智能(AI)生成和人类创作的图像至关重要,原因涉及伦理、安全、真实性和社会影响等多个方面。以下是其重要性的具体体现:虚假信息与深度伪造(Deepfakes)AI生成的图像可能被用于传播虚假信息,制造假新闻、宣传或欺骗性内容。深度伪造技术可以冒充真实人物,导致身份欺诈、政治操纵或名誉损害。知识产权与版权问题AI生成的艺术作品引发了关于所有权和版权的问题,尤其是当AI模型基于人类创作的作品进行训练时。区分AI生成的图像有助于艺术家保护其知识产权,并确保公平署名。
2025-02-07 17:20:12
1013
原创 如何成为一名 Python 全栈工程师攻略
**Week 9:** 学习 JavaScript 基础,包括语法、数据类型、运算符、控制流程、函数、DOM 操作、事件处理。* **Week 2:** 学习列表、元组、字典、集合的定义、操作、常用方法,以及列表推导式、字典推导式。* **Week 7:** 学习 HTML 基础,包括常用标签、表单、表格、列表、图片、链接。* **Week 8:** 学习 CSS 基础,包括选择器、盒模型、布局、浮动、定位、动画。
2025-01-31 09:49:15
457
原创 DiffuEraser: 一种基于扩散模型的视频修复技术
视频修复算法结合了基于流的像素传播与基于Transformer的生成方法,利用光流信息和相邻帧的信息来恢复纹理和对象,同时通过视觉Transformer完成被遮挡区域的修复。然而,这些方法在处理大范围遮挡时常常会遇到模糊和时序不一致的问题,这凸显了增强生成能力模型的重要性。近期,由于扩散模型在图像和视频生成方面展现出了卓越的性能,已成为一种重要的技术。在本文中,我们介绍了DiffuEraser,这是一种基于稳定扩散的视频修复模型,旨在以更丰富的细节和更连贯的结构填充被遮挡区域。
2025-01-26 21:06:47
1542
原创 Neural Architecture Transfer
NeuralMAGEel size.weightsbothweightsandtopology(NAT)topologyandweights),1(a)adaptationsearch2TABLE 1:†et al.[45] use asupernetAcc∗−007Afiaifromai, fi4archiveAFig. 2:1×1L1thenetworkstemandtailstageeach。
2024-12-27 20:32:31
1259
原创 基于机器学习的注意力缺陷/多动障碍 (ADHD)(python论文+代码)HYPERAKTIV
因此,本文提出了一个公共数据集,包含健康、活动和心率数据,来自诊断的成年患者,更众所周知的ADHD。除了活动和心率数据,我们还包括了一系列患者属性,如他们的年龄、性别和精神状态信息,以及来自计算机化神经心理测试的输出数据。结合所提供的数据集,我们还提供了基线实验,使用传统的机器学习算法来预测基于所包含的活动数据的ADHD。其次,有很多关于医疗应用的多媒体研究,其中数据集是私有的,使工作既不直接适用,也不能重复。注意缺陷多动障碍,多动症,活动记录仪,运动活动,心率,机器学习,人工智能,数据集。
2024-09-19 16:58:29
1672
原创 PMData:人工智能之运动记录数据集
我们提出了PMData:一个结合了传统的生活记录数据和运动活动数据的数据集。我们的数据集能够开发新的数据分析和机器学习应用程序,例如,额外的运动数据用于预测和分析日常发展,比如一个人的体重和睡眠模式;以及在运动环境中用传统生命数据预测运动员表现的应用程序。PMData结合了来自Fitbit Versa 2智能手表腕带、PMSys运动日志智能手机应用程序和谷歌表单的输入。收集了5个月的记录数据。我们最初的实验表明,新的分析是可能的,但仍有改进的空间。
2024-09-19 09:37:38
1661
2
原创 Mini-Omni 语言模型在流式传输中边思考边听说应用
Mini-Omni 是一个开源的多模态大语言模型,能够在思考的同时进行听觉和语言交流。它具有实时端到端语音输入和流媒体音频输出的对话能力。语言模型的最新进展取得了显著突破。GPT-4o 作为一个新的里程碑,实现了与人类的实时对话,展示了接近人类的自然流畅度。为了实现这种人机交互,模型需要直接通过音频模态进行推理,并在流式传输中生成输出。然而,目前的学术模型通常依赖额外的文本转语音(TTS)系统进行语音合成,从而引入了不必要的延迟。
2024-09-13 11:12:14
1324
原创 基于边缘计算的疲劳驾驶检测系统
一种基于边缘计算的疲劳驾驶检测系统,旨在通过计算机视觉技术实现高效、实时的疲劳监测。该系统利用边缘计算平台对摄像头采集的图像进行实时处理,分析驾驶者的面部表情和眼睛状态,以识别疲劳驾驶的迹象。本文详细阐述了系统的核心技术,包括实时图像处理、特征提取及决策模型,并探讨了该系统在提升驾驶安全性和减少事故发生率方面的实际应用价值。
2024-09-10 11:26:22
1586
原创 基于MATLAB的全景图像拼接系统实现
本系统遵循“由粗到精”的拼接策略,首先通过全局变换矩阵实现图像的大致对齐,然后利用局部对齐算法对特征点进行精细调整,最后通过拼接缝选择与融合技术消除拼接痕迹,提高全景图像的自然度与美观度。本系统采用模块化设计思想,将全景图像拼接过程划分为多个相互独立的模块,包括图像预处理、特征提取与匹配、变换计算、图像映射与对齐、拼接缝选择与融合及UI界面等。各模块之间通过数据接口进行通信,共同完成全景图像的拼接任务。图像预处理是全景图像拼接的第一步,旨在减少图像噪声、提高图像质量,为后续的特征提取与匹配奠定基础。
2024-09-10 09:29:38
1213
原创 智能监控中图像质量增强方法研究
本文深入探讨了智能监控系统中图像质量增强的关键技术,通过融合深度学习、传统图像处理算法及生成对抗网络(GAN)的优势,提出了一套高效且鲁棒的图像质量提升方案。本文详细描述了技术框架的每一个组成部分,深入剖析了技术原理,并详细阐述了实现步骤,最后通过实验验证了所提方法的有效性。第一部分:图像增强算法原理介绍和算法基础图像点运算和图像灰度化处理这里我们主要讲解Python OpenCV图像处理和图像识别知识,前期主要讲解图像处理基础知识、OpenCV基础用法、常用图像绘制方法、图像几何变换等。
2024-09-09 10:36:54
1700
智能医疗诊断协助系统演示(LLM,RAG,Agent)
2025-05-20
参考论文1:SSDA-YOLO: SEMI-SUPERVISED DOMAIN ADAPTIVE YOLO FOR CROSS
2024-06-04
肿瘤分割与识别(python实现)
2023-08-24
粒子群算法优化及在TSP中的应用
2023-08-24
基于遗传算法的旅行商问题优化求解(python)
2023-08-24
心电信号处理及可视化系统设计(python)
2023-08-24
单词学习系统设计与实现(python)
2023-08-24
基于 AR 图像识别的算法研究与应用(python实现)
2023-08-23
基于Python的电脑配件管理系统的设计与实现
2023-08-23
基于蚁群算法的机场除冰车调度问题(源码QQ:2551931023)
2023-08-23
Python图像处理PCA算法完整源码
2019-11-05
企业人事管理系统.zip
2019-06-05
C#入门经典教程.ppt
2019-05-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人