大模型实验室Lab4AI-CSDN博客

原创刚刚，谷歌正式发布Gemini 3 Flash

北京时间12月17日凌晨，谷歌正式发布了新一代AI模型Gemini 3 Flash，这款被称为“为速度而生的前沿智能”模型，在性能、成本和速度三个方面实现了突破性进展，有望重塑大模型性价比的天花板。

2025-12-18 14:18:25 547

原创腾讯混元世界模型 HY-World 1.5发布并开源：首个开源、实时交互、长期几何一致性的世界模型来了

今日，腾讯混元发布并开源 HY-World 1.5（WorldPlay），其支持实时交互生成、保持3D-致的世界模型。适用于风格多样的场景生成，支持3D重建、文本触发事件等多种应用。HY-World 1.5到24 FPS 生成一致性的长时域流式视频，与现有技术相比表现优异。其在不同场景中表现出强大的泛化能力，支持真实世界和风格化环境中的第一人称和第三人称视角，实现了3D重建、可提示事件和无限世界扩展等多样化应用。

2025-12-18 11:33:34 175

原创告别手敲 tabular：Table2LaTeX-RL 高保真表格生成复现

详细论文解读请查看往期文章NeurlPS2025| 告别手动制表:电子科大+之江实验室提出Table2LaTeX-RL创新性高保真表格生成方法科学论文中的复杂表格一直是自动化处理中的硬骨头：多级表头、跨行跨列单元格、嵌套结构和数学公式都极其依赖精细的版面控制。

2025-12-18 10:33:03 612

原创多模态赋能情绪理解：Qwen3-VL+LLaMA-Factory 的人脸情绪识别实战

本项目依托Lab4AI平台，基于LLaMA-Factory成功对Qwen3-VL进行了完整的微调流程。我们将传统的人脸情绪识别任务与多模态大语言模型（MLLM）相结合，探索了MLLM在视觉情绪理解中的应用。通过微调Qwen3-VL，我们成功将传统的分类任务转化为多模态推理任务，显著提升了模型在复杂场景下的鲁棒性和准确率。这一方案不仅在人脸情绪识别上取得了显著提升，还为其他视觉任务的多模态大模型应用提供了新的思路，具有广泛的应用前景。

2025-12-17 17:41:55 493 1

原创 LLaMA-Factory 答疑系列二：高频问题 + 官方解决方案，建议收藏备用

本文整理了LLaMA-Factory大模型微调工具使用中的9个高频问题及解决方案，涵盖显存管理、数据格式、训练优化等关键点。主要内容包括：1）多服务器通信方法；2）学术资源加速技巧；3）预训练样本数差异原因；4）LoRA参数设置问题；5）显存占用优化方案；6）多模态数据格式规范；7）Jupyter文件操作异常处理；8）训练数据顺序控制；9）模型输出异常排查方法（模板匹配、过拟合处理等）。文章还介绍了Lab4AI平台提供的算力支持和课程资源，帮助开发者提升大模型微调实践能力。

2025-12-17 15:35:51 322

原创 Qwen3-VL + LLaMA-Factory 怎么玩？手把手教你做一个会打分会挑错的作文批改助手

在K12 和高等教育阶段，作文批改一直是教学反馈中最费时、最主观、最难标准化的一环。核心痛点集中在教师批改压力巨大、评分主观性强难以统一以及反馈滞后难以形成写作闭环。随着大语言模型的发展，我们终于迎来了一个新选项：让大模型真正学会“像语文老师一样”看作文、打分数、写评语。今天，我们就通过一个在上可一键复现的完整项目，拆解这条路径：如何利用在仅有300 篇高中作文的小样本条件下，完成一个 “能打分 + 会写评语” 的中文作文智能批改助手，非常适合老师、教研员和教育 AI 开发者快速验证效果。

2025-12-17 11:56:47 244

原创成本杀手！LLaMA-Factory 助阵 Qwen3-VL：低预算下的高效医疗影像全揭秘

还在为医疗影像大模型的“高算力、高显存”门槛头疼吗？2025年10月，Qwen3-VL-30B-A3B-Instruct 的开源，带来了革命性的解决方案。它独创的，可以在保持顶级性能的同时，仅激活参数，直接将显存占用降低 60%！今天，我们将深度解析一个完整的实战项目：如何利用LLaMA-Factory 框架，高效微调 Qwen3-VL，让模型能够在有限的医学影像数据上，更好地理解图像内容、描述可见结构，并生成符合医学语境的分析文字。这套。

2025-12-17 11:36:51 215

原创 LLaMA-Factory 课程答疑系列一：10个关键问题速查，官方认证解法让训练推理不踩雷

A：微调日志中进度条显示 error 通常是进度条组件的渲染问题，而非训练程序的功能错误。其本质是工具库（如 tqdm）在特定终端环境下无法正常动态刷新进度条，因此输出 error 标记。只要训练日志中后续有正常的训练指标（如损失、步数）输出，训练逻辑即为正常，无需担心。

2025-12-17 10:45:21 537

原创 AAAI 2026 为什么开源 LLM 搞不定数据分析？浙江大学揭秘核心原因

论文标题：作者团队：浙江大学发布时间：2025年11月13日大语言模型（LLMs）在自动化数据分析任务中具有巨大潜力，但现有开源模型在面向高强度推理场景时仍存在明显局限。为此，本工作系统研究了提升开源 LLM 数据分析能力的策略。首先构建了一个涵盖多样且贴近真实场景的种子数据集，从数据理解、代码生成和策略规划三个核心维度对模型表现进行评测。

2025-12-16 16:08:50 257

原创 GLM-4.6V开源：重新定义多模态AI的行动范式

12月8日，，作为GLM系列在多模态方向上的重要迭代，GLM-4.6V在技术架构和应用场景上都实现了突破性进展。

2025-12-16 14:54:33 840

原创这个985实验室8篇论文被AAAI2026录用

厦门大学ASC实验室8篇论文被AAAI2026录用，涉及激光雷达里程计、目标检测、协同感知、步态识别等前沿方向。这些研究在算法创新和应用落地方面取得突破，如RCP-LO框架提升了激光雷达里程计的泛化能力，Physically-Based LiDAR Smoke Simulation增强了目标检测的鲁棒性，V2VLoc实现了无GNSS信号的协同感知。实验室成果展现了在人工智能领域的领先实力，同时获得Lab4AI科研平台的技术支持，为从理论研究到实际应用提供了完整解决方案。

2025-12-11 14:52:57 1149

原创吴恩达发布论文自动审阅器，ICLR评审接近人类水平

AI正在改变学术论文评审的游戏规则。斯坦福大学教授吴恩达近日发布了一款创新的Agentic Reviewer（智能体审稿人）工具，旨在解决学术圈长期存在的论文评审周期过长问题。这款工具在ICLR 2025审稿数据上的测试表现令人惊讶——

2025-12-10 14:40:32 384

原创这所211大学在AAAI 2026上发表6篇论文

近日，人工智能领域顶级国际会议（The 40th Annual AAAI Conference on Artificial Intelligence，CCF-A）公布录用结果，计算机科学与技术学院共有6篇研究论文被录用，实现AAAI国际顶会论文的历史性突破。第四十届人工智能顶级国际会议——AAAI 2026（The 40th Annual AAAI Conference on Artificial Intelligence）将于2026年1月20日至27日在新加坡博览中心召开。

2025-12-08 14:22:46 596

原创写论文的人都应该知道的宝藏工具：Zotero

Zotero是一款免费开源的跨平台文献管理工具，能有效解决科研人员的文献管理难题。它支持一键抓取文献、智能分类整理、自动生成参考文献等功能，并可通过插件扩展知网文献抓取等特色功能。相比同类工具，Zotero具有完全免费、操作简便等优势，特别适合学生和科研人员使用。安装后建议配置WebDAV同步解决存储空间限制问题。该工具能显著提升文献管理效率，让研究者专注于核心科研工作。

2025-12-04 18:20:36 568

原创 NeurIPS 2025 Spotlight！跨模态重识别革命！东北大学等 MDReID 图像信息智能匹配

论文标题：作者团队：东北大学、厦门大学、新加坡国立大学发布时间：2025年10月27日✅Lab4AI平台提供AI导读和AI翻译等工具，辅助论文阅读。想象一下：警察想要通过监控录像找到一个嫌疑人。但是，不同监控摄像头的类型可能完全不同——有的拍的是普通的彩色照片（RGB），有的是黑白但能夜间看清的（NIR），还有的是能感知热量的热成像（TIR）。这就带来了一个难题：如果用一张彩色照片（RGB）去热成像（TIR）照片里找人，传统系统可能就失灵了。这篇论文就是为了解决这个“张冠李戴”的实际问题。

2025-12-03 15:45:57 411

原创 NeurIPS 2025|南开大学提出 VidEmo 实现更精准的情感解读

《VidEmo：面向情感中心视频基础模型的树状推理框架》提出创新性情感分析模型VidEmo，突破传统视频AI在复杂情绪识别上的局限。该研究通过三阶段推理框架（属性感知-表情分析-情感理解）和210万样本的EmoCFG数据集，使AI能像心理专家般解读细微情绪。实验显示，VidEmo在15项任务中超越开源VideoLLMs，微表情检测等任务表现突出，下游情感识别准确率提升9.4%。该成果由南开大学、鹏城实验室和快手科技联合研发，为情感计算领域提供新范式。

2025-12-02 17:57:12 344

原创 NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考：简单任务快处理，复杂任务深分析

论文标题：作者团队：浙江大学、阿里巴巴云、浙江工业大学发布时间：2025年10月30日✅Lab4AI平台提供AI导读和AI翻译等工具，辅助论文阅读。您还可以投稿复现这篇论文~

2025-12-02 17:24:22 331

原创李飞飞最新访谈：空间智能是AI的下一个前沿，Transformer可能被淘汰？

斯坦福大学教授李飞飞在播客中分享了对AI未来的大胆预测，强调空间智能将重塑游戏规则。2025年11月，斯坦福大学教授、World Labs创始人李飞飞参加了一档播客访谈，深入探讨了空间智能（Spatial Intelligence）和世界模型（World Models）的核心意义。她指出，当前的大型语言模型（LLM）虽令人惊叹，但仅靠文本无法实现通用人工智能（AGI），AI必须像人类一样通过视觉和行动体验物理世界。

2025-12-02 14:56:30 806

原创 NeurIPS 2025！采样成本降 50%+ 准确率提升！南大等团队的RPC方法刷新 LLM 推理上限

论文标题：作者团队：南京大学、瑞士苏黎世联邦理工学院发布时间：2025年10月17日✅Lab4AI平台提供AI导读和AI翻译等工具，辅助论文阅读。您还可以投稿复现这篇论文~

2025-12-02 14:23:53 395

原创看完《疯狂动物城》心痒痒？试试ComfyUI，让朱迪和尼克走进你的画布

最近，《疯狂动物城》再度以超高热度回归大众视野。大银幕上朱迪的勇敢坚定、尼克的幽默机敏，还有那座让人无限着迷的动物乌托邦，当片尾曲响起，你是否也曾有过一丝意犹未尽？过去这是梦想——而如今，借助强大的 AI 绘画工具，我们终于可以实现这种“再创作”。尤其是，能让尼克和朱迪呈现出惊人细腻、贴近原作、又带一点新艺术风味的图像效果。今天，就带大家在 Lab4AI 上复现这份魔法。

2025-12-01 10:15:50 1059

原创代码跑通算复现成功吗

论文复现的关键在于代码跑通和精读论文。首先需要获取开源代码和数据集，进行数据预处理和环境配置，调试运行直至代码成功执行。若遇到困难，可使用Lab4AI.cn平台一键跑通，该平台提供现成的环境、代码和数据集。代码跑通后需精读论文，理解设计思路并思考改进方案，从而生成创新点子。复现过程可能遇到参数不符、环境配置等问题，需耐心调试。

2025-11-28 15:38:11 386

原创清华团队NeurIPS2025最高分论文重磅发现：RLVR训练只是效率优化，大模型推理能力并未超越基座边界

清华大学与上海交通大学团队2025年发表的研究《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model？》挑战了强化学习与可验证奖励（RLVR）提升大模型推理能力的传统认知。研究发现当前RLVR方法仅优化了模型从基座已有能力中的采样效率，并未真正拓展其能力边界。通过对比实验证实，知识蒸馏能引入新能力，而RLVR模型表现始终受限于基础模型。该研究揭示了现有RLVR方法的局限性

2025-11-28 15:36:47 318

原创复杂部署退退退！DeepSeek-OCR 轻量化文档理解，3分钟私有部署搞定

DeepSeek-OCR突破传统OCR局限，通过“压缩+解码”架构高效解析多模态文档。其核心包括双阶段视觉压缩引擎（DeepEncoder）和MoE解码器，能以10-20倍压缩比处理图像，在保持高精度的同时显著提升速度并降低显存占用。该技术仅需3B参数即可深度解析文字、表格、图表等内容，并支持3分钟私有化部署。Lab4AI平台提供全流程支持，用户可快速体验从文档上传到结构化输出的完整流程，实现高效落地的文档智能化处理。

2025-11-28 15:35:57 371

原创 NeurIPS 2025！电子科大同济等提出Table2LaTeX-RL：表格转 LaTeX 精准度再突破

摘要：电子科技大学等团队提出Table2LaTeX-RL框架，实现表格图像到高保真LaTeX代码的自动生成。该研究构建了120万对图像-代码数据集，创新性地采用双重奖励强化学习策略（VSGRPO），结合结构层和视觉层优化机制，显著提升复杂表格的生成质量。同时提出混合评估体系，突破传统指标局限，为学术文档数字化提供了新解决方案。论文已发布在arXiv平台。

2025-11-28 15:34:47 243

原创 NeurlPS 2025！香港大学等联合推出Concerto框架突破单模态局限，为三维场景理解注入新范式

论文《Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations》提出创新框架解决多模态视觉学习痛点。通过"模内自蒸馏"优化单模态表征，结合"跨模态嵌入预测"关联2D-3D数据，实现协同空间表征。该框架在ScanNet等基准测试中表现优异，如ScanNet200语义分割达80.7% mIoU，且参数和数据效率高，仅需1%-5%标注数据。还支持开放世界任务，通过语言映射实现

2025-11-28 15:33:36 344

原创 Lab4AI Q&A 第一期：Flash Attention 安装 OOM、文件上传失败？解决方法在这

Lab4AI大模型实验室常见问题解决方案摘要：1）安装Flash Attention时出现OOM问题，建议改用预编译包或升级至H800*4卡配置；2）文件上传失败可改用Cyberduck工具通过SFTP传输；3）权限问题需将数据先写入user-data文件夹；4）数据集上传无大小限制；5）多服务器间支持通信，可通过/etc/hosts查看IP，并利用3.6TMbps IB网络进行分布式训练。

2025-11-28 15:31:07 334

原创原来用聊天记录就可以创造数字分身！WeClone项目在Lab4AI上的复现

摘要：Lab4AI推出WeClone项目，帮助用户通过聊天记录创建数字分身。该项目提供两种体验方式：直接使用平台数据或导入个人聊天记录进行微调。操作流程简单，包含数据导出、预处理、模型微调和推理四个步骤。平台已预装环境，免除配置烦恼。测试显示微调后的AI能更好模仿特定语言风格（如客服话术）。该项目让数字分身创建变得简单易行，为用户提供个性化AI助手体验。

2025-11-28 15:29:33 837

原创 NeurlPS 2025！多伦多大学TIRE助力3D/4D 生成精准保留主体身份

本文提出TIRE方法，实现主体驱动的3D/4D生成。通过三阶段流程：Track识别填充区域、Inpaint逐步填充未观察区域、Resplat将2D结果重投影回3D空间。该方法在DreamBooth-Dynamic基准测试中表现优异，与其他3D/4D生成技术形成互补。研究团队来自多伦多大学等机构，成果发表于2025年10月。论文链接和阅读工具可通过Lab4AI平台获取。

2025-11-27 18:46:23 368

原创 NeurIPS 2025|让AI读懂第一视角的“内心独白”！浙大等联合突破性实现自我中心视频推理

论文名称：发布时间：2025年10月28日✅此平台提供AI导读和翻译等工具，辅助论文阅读。

2025-11-27 17:34:52 409

原创 CVPR 2024！具备尺度与位置敏感性的红外小目标检测 | 目标检测 |计算机视觉

摘要：论文《Infrared Small Target Detection with Scale and Location Sensitivity》提出了一种针对红外小目标检测（IRSTD）的新方法，重点解决微小目标在复杂背景中易被淹没的难题。通过设计尺度与位置敏感网络，模型结合多尺度分层融合和位置敏感解码器，显著提升了目标检测精度与定位能力。核心技术包括多尺度特征融合、上下文感知模块及细节增强损失函数，有效降低漏检率和虚警率。实验环境已预配置，支持一键复现，适用于国防安全领域的预警与侦察任务。

2025-11-26 18:13:48 380