长官我是读书人-CSDN博客

原创 LLM 论文精读（七）Rethinking Reflection in Pre-Training

这是一篇2025年发表在arxiv中的LLM领域论文，也是之前两篇有关RL和LLM性能关系之间的另一篇论证论文，作者任务模型的反思能力是在预训练阶段就获得的与RL无关；

2025-05-11 22:32:36 742

原创 LLM 论文精读（六）Does Reinforcement Learning Really Incentivize Reasoning Beyond the Base Model

这是一篇2025年发表在arxiv中的LLM领域论文，也是上一篇笔记中提到的 “Base 模型边界锁死了 RL 的上限” 的另一篇论证论文。但与上一片论文的最大区别是其验证方法，这篇直接大力出奇迹，通过让模型进行大量重试来判断模型是否本身就具备得到正确解的能力，而上一篇则是通过观察其对数据问题的求解过程判断模型是否具备推理能力。

2025-05-11 21:20:27 591

原创 LLM 论文精读（五）Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effec

这是一篇2025年发表在arxiv中的LLM领域论文，斯坦福大学的研究员认为 Base 模型边界锁死了 RL 的上限，虽然这个结论看上去显而易见，因为RL的作用其实是让LLM能够输出更好的结果，但这个结果的边界仍然是LLM自身决定的，但这篇文章提出了这一点，与之相应的还有两外两篇来自清华和交大的论文，我后续会写对应的笔记。

2025-05-11 19:29:05 529

原创 LLM 论文精读（四）LLM Post-Training: A Deep Dive into Reasoning Large Language Models

这是一篇2025年发表在arxiv中的LLM领域论文，是一篇非常全面的综述类论文，介绍了当前主流的强化学习方法在LLM上的应用，文章内容比较长，但建议LLM方面的从业人员反复认真阅读。

2025-05-11 17:31:54 849

原创 LLM 论文精读（三）Demystifying Long Chain-of-Thought Reasoning in LLMs

这是一篇2025年发表在arxiv中的LLM领域论文，主要描述了长思维链 Long Chain-of-Thought 对LLM的影响，以及其可能的生成机制。

2025-05-08 19:41:38 735

原创 RL 论文精读（一）DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills

这是一篇2018年发表在arxiv上有关机器人强化学习的论文，这篇论文非常重要，可以说是做机器人运控强化学习方面必读文章，虽然文中的所有实验都是在仿真环境下展开的，但里面的policy设置方法和训练技巧仍然值得学习。

2025-05-07 20:29:04 658

原创 VLA 论文精读（二十一）RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

这篇论文是2025年发表在arxiv上的一篇VLA领域论文，RDT也是做具身的一个必须了解的模型，和OpenVLA、$\pi0$ 这两个模型一样是基本功。

2025-04-29 15:50:45 829

原创 VLA 论文精读（二十）3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensing

这篇论文是2025年发表在arxiv上的一篇VLA领域论文，这篇论文整体读下来其实不难，主要的创新点在于他将触觉表示成3D形式与RGBD相机得到的点云一起给PointNet++计算3D特征，用DP生成动作，之前有些方法是将触觉特征单独处理，然后在合适的位置编码进去，或者在动作序列中保留几个位置用来表示触觉的力度。

2025-04-25 19:04:22 1001

原创 VLA 论文精读（十九）Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

这篇论文是2023年发表在arxiv上的一篇VLA领域论文，虽然相距现在已经很久远了（VLA太卷了，论文得按月更新），但这篇论文对后续的影响深远，因为是第一个提出action chunk作为动作输出的文章，直接将自回归误差收敛到了一个可接收的范围，并且开源了一个ALOHA硬件（总成本约2W 刀），可以以非常低的成本进行VLA训练与验证。因此这仍然是一篇VLA从业者必读文章。

2025-04-25 15:16:47 615

原创 Agent 论文精读（一）AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

这篇文章是2023年发表在arxiv上的有关Agent系统的文章，就是那个大名鼎鼎的 Microsoft AutoGen，是想要做Agent系统架构的人必读论文，因为这是少见的能把多Agent调教到稳定的开源框架，并且还在一直更新，很多agent架构其实都是在抄作业，但真正实现相同功能的仍然是少数。还是那句话：“你可以说微软坏，但不能说微软菜”。

2025-04-24 22:28:23 780

原创 VLA 论文精读（十八）π0.5: a Vision-Language-Action Model with Open-World Generalization

这篇文章是2025年发表在arxiv上的一篇VLA领域，这篇论文出来的第二天我就粗略读了一遍，但实在意犹未尽所以又写了这篇博客。这篇文章给我的震撼其实不是他们有多强泛化能力的模型，而是他们所有的机械臂构型与之前完全不一样了，Physical Intelligence 是一家打通了从硬件到算法的公司，他们与国内的银河通用、星海图等公司都有非常紧密的合作，我也是偶然才知道 Physical Intelligence 其实一直在给两家公司的本体构型提改动需求，也就是说这家公司其实摸到了正真适合VLA模型的硬件结构

2025-04-24 19:27:03 1188 2

原创 VLA 论文精读（十七）AffordDP: Generalizable Diffusion Policy with Transferable Affordance

这篇文章是2025年发表在arxiv上的一篇VLA领域DP相关方法的论文，其核心思想在于将3D点云引入模型，然后将3D空间中的触电与接触对象后的轨迹对可供性进行建模，需要用到ICP算法从将记忆中的模型与当前对象进行匹配，意味着如果预训练模型性能不足时，这一步会出现明显问题；

2025-04-23 16:03:16 876

原创 VLA 论文精读（十六）FP3: A 3D Foundation Policy for Robotic Manipulation

这篇论文是2025年发表在arxiv上的一个3D VLA论文，稍微有一种大力出奇迹的感觉，3D感知部分将点云转到同一个坐标系下，然后用 Uni3D 进行编码；语言指令直接用 CLIP 输出不参与训练；整体模型还是需要大量的泛化场景进行预训练，然后针对不同的任务进行微调，但作者说微调后可以很好的泛化到不同场景以及物体上；

2025-04-23 01:19:09 952

原创 VLA 论文精读（十五）Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic

这篇论文是2024年发表在arxiv上关于3D DP的论文，主要讲了如何将3D点云嵌入到DP模型中，但这里作者对3D点云信息嵌入有一些巧思，没有直接对整个点云进行编码，而是用2D多模态模型先计算注意力区域，然后将这些mask中的点云进行编码，最后再生成机械臂动作。按照作者的描述这样做可以大幅减少有效空间信息缺失；

2025-04-22 20:42:44 979

原创 LLM 论文精读（二）Training Compute-Optimal Large Language Models

这篇论文是2022年由DeepMind发表的一篇LLM领域重磅级文章，和上一篇读书笔记(OpenAI) 发表有关模型规模和性能的论文一样，这篇也是关于模型训练与边界的论文，主要内容是如何在有限的算力下训练出最优的模型。如果你是从事LLM训练与微调工作的话，这两篇论文都是强烈建议精读的文章。

2025-04-22 16:30:56 837

原创 LLM 论文精读（一）Scaling Laws for Neural Language Models

这篇文章是2020年发表的一篇LLM领域中非常重要的论文，由OpenAI发布，总结了LLM模型规模与训练数据token之间的比例关系，即我们熟知的 Scaling Laws，允许 **通过观察小规模训练实验，提前预测大模型的效果表现，降低浪费以合理分配训练资源**。虽然发布距今已经5年了，且一直以来都有人在挑战这个定理，但对于学习VLA、VLN、LLM的人而言仍然非常重要，因为他可以在你研究初期就给你一个大致的范围，告诉你想要训练好一个大模型的数据上限在哪。

2025-04-22 12:24:43 1327

原创 VLN论文精读（六）NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augm

作者提出了一种基于RAG的VLN导航指令的生成方法，引入了场景描述树的概念，不同层级的节点描述了不同抽象程度的信息，然后将整个树传递给LLM作为外界知识库以生成更好的导航指令。

2025-04-21 19:50:30 598

原创 VLN论文精读（五）OpenBench: A New Benchmark and Baseline for Semantic Navigation in Smart Logistics

该论文旨在解决无人配送的“最后一公里”问题，即小区或单元楼范围的楼栋配送问题，局部定位与路径规划使用的是FastLio2、A*、TEB算法，全局定位与姿态估计靠LLM解决，整个系统zero-shot，同时对比了多个LLM模型，认为 GPT-4o-mini 效果最好。作者在真实与仿真环境中均进行了测试，由于这一领域的相似研究较少，所以文中的模型对比部分内容较为贫瘠，但根据作者的实验结果可以证明他们的方法明显强于另外两种基于学习的方法；

2025-04-21 17:05:14 1419

原创 VLA论文精读（十四）PointVLA: Injecting the 3D World into Vision-Language-Action Models

这篇文章最大的创新点在于将3D点云信息作为补充条件送入模型，而不是DP3一样只用纯3D数据从头训练模型，按照作者的说法这样可以在保留模型原有2D解释能力的同时添加了其3D能力，并且可以有效识别真实物体与2D照片，作者设置的各种任务中都超越了baseline模型。

2025-04-21 15:07:28 1169

原创 VLA论文精读（十三）CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

这篇文章是英伟达、斯坦福、MIT 三个高校联合发布。其核心思想是用自回归能力生成整个任务过程中的目标子图，然后根据这些目标子图再去生成action chunk，目的是将CoT 引入到VLA中以提升模型整体性能；虽然该模型在总体性能上提升不大（3%～16%）之间，但其引入视觉思维链的思想与方法可以作为未来工作的参考。

2025-04-20 18:36:08 754

原创 VLA论文精读（十二）Universal Actions for Enhanced Embodied Foundation Models

这篇论文的研究与之前大部分VLA模型不同，其从通用动作空间抽取动作原子信息而不是直接用图像预测动作序列。根据作者实验可得仅用0.5B参数得模型就可以达到当前SOTA模型的水准，并且能够以非常低的成本（微调参数总量0.8%的头部部分）适配不同控制接口的设备。

2025-04-17 16:22:16 726 2

原创 VLA论文精读（十一）ROBOVERSE: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizab

这篇笔记用来描述 2025年的一篇有关 VLA 领域的论文。作者团队只能说是仙人之兮列如麻，并且野心很大，创造了一个集成机器人仿真、数据生成、模型评估的统一平台，并发表了一个大规模数据集。通过一系列技术手段将常用的仿真平台串联起来对外展示统一的API接口，并且可以同时使用不同平台的特定功能；数据集方面也将多个数据集打包成了一个，甚至VLN部分还区分了机械狗与人形；

2025-04-14 17:32:33 888

原创 VLA论文精读（十）DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

是一篇关于灵巧手抓取的VLA模型，并创建了一个开源数据集，尽管如此我还是觉得这篇论文内容不够丰满，特别是在模型对比上只和自己进行了消融实验，但文章中的实验却说明了其具备极强的泛化能力。

2025-04-11 19:37:09 1079

原创 VLA 论文精读（九）ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

这是一片被CVPR2025收录的一篇文章，主要介绍了一个有关灵巧手模型并提供了开源数据集，在训练模型的流程上进行了一些调整，并在仿真与真机迁移上进行了验证。

2025-04-11 14:22:09 1100

原创 VLA 论文精读（八）Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

这篇文章是对作者先前工作OpenVAL的一个扩展，旨在使用更好的微调方式以提高模型的控制输出频率，在这期间作者发现这种微调方式甚至能让模型获得更强大的泛化，包括双臂操作、多视角输入等。

2025-04-10 21:56:01 1059

原创 VLA 论文精读（七）Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Mani

作者介绍了一个带有触觉信息的TactAR数据采集框架，并创造了一个RDP的快-慢策略网路，快网络用触觉信息实现闭环动作，慢网络用视觉信息提供开环轨迹。

2025-04-10 16:25:06 1544

原创 VLA 论文精读（六）Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Languag

这篇笔记用来描述 2025年发表在arxiv上的一篇有关 VLA 领域的论文。其创新点在于将触觉与音频信息融合进模型中，根据作者描述将这两种数据融合后，在他们设置的任务成功率最高能提升20%以上，但并没有去跑过开源大规模数据集bench。

2025-04-10 11:37:39 661

原创 Path Planning 论文精读（一）EGO-Planner: An ESDF-free Gradient-based Local Planner for Quadrotors

这篇笔记记录了浙江大学高飞团队提出的EGO-Planner框架论文精度过程，该团队在国内无人机领域有较高的知名度，文章大多数被顶会和Top期刊收录

2025-04-09 15:59:32 988

原创 VLA 论文精读（五）VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Lon

通用具身agent旨在理解用户的自然指令或意图并精确地完成通用任务。近期，基于基础模型尤其是VLA的方法已显示出解决语言条件操作 (Language-conditioned manipulation, LCM) 任务方面的巨大潜力。然而现有的基准测试不能充分满足 VLA 和相关算法的需求。为了在更好地定义通用任务并推进 VLA 的研究，作者提出了VLABench，一个用于评估 LCM 任务的开源基准测试数据集。VLABench。

2025-04-08 15:23:16 632

原创 VLA 论文精读（四）DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning

清华在2月提出的一个数据生成引擎，使用3D点云+传统规划算法作为基底生成仿真数据

2025-04-02 15:16:45 1403

原创 Pytorch学习笔记（二十）Image and Video - Optimizing Vision Transformer Model for Deployment

pytorch官方教程 Optimizing Vision Transformer Model for Deployment

2025-04-01 19:25:37 936

原创 Pytorch学习笔记（十九）Image and Video - Spatial Transformer Networks Tutorial

Spatial Transformer Networks Tutorial

2025-04-01 16:49:45 299

原创 VLA 论文精读（三）Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

VLA的Diffusion Policy论文精读

2025-03-31 23:33:40 736

原创 VLA 论文精读（二）GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

VLA领域Nvida论文《GR00T N1: An Open Foundation Model for Generalist Humanoid Robots》精度

2025-03-31 01:47:24 1276

原创 VLA 论文精读（一）OpenVLA: An Open-Source Vision-Language-Action Model

基于互联网级VL数据和多样化的机器人演示上的大规模预训练策略，具有改变机器人能力的潜力。相比于从零开始训练新的能力而言，可以对VLA进行微调以获得用于视觉运动控制的鲁棒且泛化的能力。然而，VLA 在机器人学中的仍面临挑战，如：1）现有的 VLA 大多是闭源的；2）已有研究未能探索如何高效地对 VLA 进行微调以适应新任务。为了解决这些挑战，作者提出 OpenVLA，一个 7B 参数的开源 VLA，基于 97 万次真实机器人演示数据训练而成。OpenVLA 采用Llama 2。

2025-03-30 20:34:17 1338

原创 Pytorch学习笔记（十八）Image and Video - DCGAN Tutorial

这篇博客瞄准的是 pytorch 官方教程中章节的部分。【注意】：这个demo我在我的 3090*2 (48GB显存)、375GB RAM、Intel® Xeon® Platinum 8255C 设备上没有跑通，发现在单 epoch 的训练循环就消耗了大量时间，我后期会跟进这个demo，如果找到了解决方案会在这篇文章上进行更新。

2025-03-30 20:01:14 737