果冻人工智能-CSDN博客

原创别再说AI是工具了，它不是工具

我收到一些反馈，说我那些长达12到18分钟的深度分析——探讨生成式AI与艺术（尤其是音乐）之间关系的内容太长了。所以我现在用不到5分钟，把我的核心观点讲清楚。

2025-05-11 11:22:56 621

原创 AI 不是问题，有问题的是你。

所有我们的思维和输出就像是一只酒杯，而AI就像是打破它的完美音调，不是通过外来的东西，而是通过与已存在的东西相匹配。

2025-05-10 23:28:55 567

原创 Nvidia 开源了“Describe Anything”——10 个现实应用场景，震撼你的认知

Nvidia 开源了“Describe Anything”——10 个现实应用场景，震撼你的认知从疾病诊断到作物追踪——Nvidia 的视觉 AI 正在彻底改变游戏规则

2025-05-09 19:43:43 1219 1

原创当AI开始做研究时，研究人员的身份就开始崩塌了！

带着年假被砍、职称评审延期、一些差点压垮我的研究论文、以及足够糊满整个办公室墙壁的拒信，我坐在那里开始思考：难不成我已经成了特斯拉时代下的马车？是得进博物馆那种。

2025-05-07 15:18:21 1052

原创 Chain-of-Draft (CoD) 是提示工程的新王者

令人兴奋的是，现在又有了一个更强的新技术，由 Zoom Communications 的研究人员提出。这个方法叫做 Chain-of-Draft（CoD）提示法，在回答问题时，仅用到 7.6% 的推理 token 就能在准确率上超过 CoT。

2025-05-07 14:43:41 709 1

原创 AI能否取代软件架构师？我将4个大语言模型进行了测试

AI是否会取代软件工程师”一直是2022年及以后技术圈的核心问题。产品经理、图形设计师等角色紧随其后，成为这个话题的讨论对象。

2025-05-07 13:23:49 891 2

原创免费的AI才是最贵的

随着AI技术的不断进步，越来越多的企业开始尝试将其应用于各类实际场景中。在这篇文章中，我们将探讨如何高效部署和优化AI系统，尤其是在硬件和软件的整合方面。🔧 如果你在学习AI或希望了解更多AI产品的开发与部署方案，欢迎私信我，我拥有10年工程经验，致力于赋能AI从概念到落地。

2025-05-06 23:01:40 915 1

原创别再硬推本地大模型了

在使用公有云模型（如 DeepSeek、豆包，Kimi，ChatGPT、Claude、Gemin）时，员工在日常操作中往往无感知地将企业数据上传至服务提供方的 AI 系统。这种看似无害的交互，在日积月累中将逐步暴露企业的核心信息与商业机密，形成系统性泄漏风险。

2025-05-05 15:37:08 1226 1

原创一篇就够：从0开始学会如何优化大模型推理（含实战技巧）

如果你正在开发AI解决方案，部署基于大型语言模型（LLM）的基础模型，那么你就得认真考虑它们的服务成本了。但我跟你说，钱不是唯一的问题 —— 要是你搞不定模型性能的问题，就算你预算再高，也一样跑不顺LLM。这篇文章就是来讲：怎么把LLM推理，从一个“烧钱怪”变成高吞吐的引擎。

2025-05-05 10:40:55 600 1

原创为什么微软的 Phi-4 14B 比 GPT-4o 和 o1 强太多了 —— 看结果就知道了

2024 年 1 月 7 日，微软在 Hugging Face 上发布了小型语言模型（SLM）“Phi-4”。这个模型采用 MIT 协议发布，可以自由用于商业用途并加以修改。

2025-05-04 17:39:16 922 1

原创今日AI 的三大核心能力，通俗讲清楚了

💡 AI 到底能帮企业做什么？除了会写文案、答问题，其实它还有更强的三种能力值得关注。👨‍🔧 我是一名技术实战派，10 年+工程经验，从芯片设计、电路开发，到 GPU 部署、Linux 系统、推理引擎、AI 应用开发一路打通。现在专注把这些经验转化为能落地的 AI 产品。📩 如果你也在做 AI 项目、AI 产品或训练推理平台，欢迎关注+私信交流。

2025-05-04 09:44:15 607 1

原创 2025年最猛的AI开发底座？这5款MCP服务器让你编程像开挂一样爽

在智能开发全面爆发的 2025 年，懂得用对工具就能事半功倍。作为🔧 技术实战派｜AI软硬件一体解决者，我长期关注 AI 工具链的整合与落地，从芯片设计、电路开发、GPU部署 → Linux系统、推理引擎 → 模型训练与实际应用，今天就来分享 5 款真正能让工作流程“飞起来”的 MCP 服务器。

2025-05-04 09:34:29 1352 1

原创介绍最前沿的人工智能创新，‘无反向传播’神经网络训练方法？

📌 本文整理自 NoProp 原始论文与实践代码，并结合多个公开实现细节进行了全流程复现。🔍 对神经网络训练机制的探索仍在不断演进，如果你也在研究反向传播之外的新路径，这篇内容可能会给你一些启发。

2025-05-03 10:18:43 833 1

原创我们是不是太蠢，连偷懒都不会？AI 应该给我们留点时间思考

在 AI 时代，我们不该继续盲目追求形式上的努力和勤奋，而应该主动拥抱一种‘聪明的懒惰’，把重复、低效、装样子的工作交给机器，把人的智慧用在创造性、判断性、更具人性价值的部分上。

2025-05-02 19:43:07 758

原创用更好的方式来监控神经网络的训练过程

这是一系列文章的第一篇，教你如何提升神经网络训练过程中的监控和排查能力：1. 更好的方式来监控神经网络训练（本篇）2. 神经元死亡问题（即将推出）3. 梯度消失与爆炸（即将推出）4. 小心梯度震荡（即将推出）

2025-05-02 17:29:48 718 1

原创 AGI只是美国硅谷的一场幻觉吗？

2023 年 4 月 14 日，幻方量化宣布成立一个专注于人工通用智能（AGI）研究的实验室，与幻方的金融业务完全分离。2023 年 7 月 17 日，这个实验室正式注册为独立公司，由幻方出资和支持，名字叫 DeepSeek。

2025-05-02 10:45:34 619 1

原创我试用了50个AI工具——AI正在如何改变设计方式

📩 本文基于我亲测50款AI产品后的真实总结，记录了我观察到的设计趋势和用户变化。如果你也在打造AI产品或研究用户体验优化，不妨一起交流 👉 可后台私信我【AI体验手册】，我整理了一份实战笔记合集。

2025-05-01 11:55:27 849 1

原创 EU AI法案：开发者和部署者，都得担责

👋 本文由一位深耕AI软硬件落地10年的技术实战者整理翻译。平时主要从芯片设计、电路、GPU部署，到Linux系统、推理引擎、模型训练都亲自操刀，长期关注AI法规对工程实践的影响。🚀 有兴趣一起交流这类技术合规问题的，欢迎评论区或者私信我交流。

2025-05-01 10:16:24 1111 1

原创 DeepSeek-V3 解析第二篇：DeepSeekMoE

📚 本文也是我们【LLM 架构演化系列】的第二篇，聚焦 DeepSeek-V3 的 MoE 架构创新。如果你正研究大模型性能优化或架构设计，欢迎参考本系列其他内容，我们也整理了多份内部实验图与流程笔记，读者留言即可交流获取。

2025-04-30 15:35:53 907 1

原创 DeepSeek-V3 解读，第一部分：理解 Multi-Head Latent Attention

🔍 我们在研究这些新架构的同时，也在整理一套完整的「LLM底层机制拆解系列」资料，聚焦模型结构演进与推理效率优化。如果你也在搭建或评估大模型系统，不妨关注这个系列一起深入分析底层设计背后的工程逻辑。

2025-04-30 15:16:18 833 1

原创 5个AI工程师在第一次构建RAG时常犯的错误

📦 本文是我「RAG工程实战反思系列」的第1篇，如果你也在构建基于LLM的RAG系统，建议收藏本文。文末有资料领取方式，可快速搭建实战系统框架。

2025-04-29 22:33:49 562 1

原创 MCP 会成为下一个 HTTP 吗？看懂 AI 交流的下一个前线

还记得互联网刚起步那会儿吗？各种协议乱七八糟，访问方式千奇百怪。后来有了 HTTP（超文本传输协议）。它不只是个协议，而是那个标准化了浏览器与服务器如何沟通的协议，解锁了如今互联互通、可交互的网络世界。HTTP 提供了一种通用语言，让信息可以自由流动。

2025-04-27 11:04:18 893

原创我在大厂做机器学习工程经理：这六顶帽子，每天都在换

如果你曾觉得作为一名 ML 工程经理的一天，就是不断切换各种上下文，那你不是一个人。上一秒你还在审查模型的 ROC 曲线，下一秒你已经在聊招聘预算，突然又得去搞模型扩展，还没喘口气呢，部署计划的邮件又来了。

2025-04-25 12:52:23 735

原创直观讲解生成对抗网络背后的数学原理

这篇文章讲的是一个非常独特的深度学习框架——生成对抗网络（GANs），我觉得它特别有意思，不仅因为它的工作原理，还因为它正在彻底改变流体力学领域中，尤其是在降阶建模和动力系统这类研究问题上的解决方式。

2025-04-24 11:33:01 881

原创 5 个开源 MCP 服务器，让你的 AI 代理无所不能

最近我一直在鼓捣 AI —— 主要是 Claude —— 但它光是回答问题让我有点无聊了。我想让它干点事儿，你懂的吧？比如从网站抓数据，或者去翻我 GitHub 的项目。这时候我发现了一些叫 MCP 服务器的东西。它们就像小帮手一样，让你的 AI 能和工具、应用打交道。开源的，免费的，而且说实话还挺好玩。我来说说我试过的五个，让我当场惊呼：“卧槽，这也太牛了吧。

2025-04-23 09:35:25 775

原创如果AI五分钟内解决不了你的问题，应该立即转为使用你自己的脑子

最近我一直在琢磨一个问题。我们现在全都沉醉在AI的神奇能力里，看着这些大型语言模型像拉斯维加斯的老虎机一样，不停地中大奖。但我自己有个简单的原则：如果AI五分钟内搞不定你的编码问题，那就关掉它，自己动脑子。

2025-04-23 09:29:18 863

而是先理解“smallness”的概念、“opposite”的概念，再到“largeness”的概念，最后才翻译成英语的 large，中文的大，或法语的 grand。在最近的一项研究《Tracing Thoughts in Language Models》中，Anthropic的研究人员声称，他们窥见了自家AI Claude的“内心世界”，观察到了它在“思考”。Claude看起来会把任务分解成可理解的小问题，提前几个词计划自己的回答，甚至在被逼到角落的时候编造推理 —— 也就是我们常说的“幻觉”。

2025-04-22 23:06:04 887

原创让未来重现《星际迷航》

2014年，我在哥本哈根的一个小型可穿戴技术大会上做了一个演讲，地点就在提沃利花园街对面的一间小房间——我记得这个细节，因为每隔几分钟就能看到过山车飞速地驶过。演讲的题目是《有效的可穿戴设备》，其中有一个观点是：“最好的交互是轻松的、显而易见的并且具有触感。”

2025-04-21 22:23:51 693

原创关于AI：记忆、身份和锁死

当生成式AI迎来投资热潮、产品发布和炒作高峰时，我们大多数人在奔向“下一个大事件”的过程中，忽略了一个深层次的缺陷。我们现在主流的AI产品和服务（比如OpenAI、Google和Microsoft的产品）都是通过“客户端-服务器”架构部署在云上的——也就是说，“这是一种计算模型，应用、数据和服务等资源由一个中央服务器提供，而客户端向服务器请求访问这些资源。

2025-04-20 23:18:21 606

原创关于大型语言模型的“生物学”

换句话说，我们可以把现在训练的模型，看作是在执行一个“更大的虚拟模型”的行为，只不过它们把所有特征塞在了一起。有趣的是，LLM虽然能在一组特定数字上算得很准，但你要问它怎么算的，它给你的还是标准人类算法说明 —— 因为它自己也不知道它是怎么得出这个答案的。自编码器的基本做法是：拿一个输入，把它映射成一个新的值集合，然后再从这个新的集合中重建原来的输入。这种直觉是来自这样一个想法：说到底，DL模型就是一堆在做线性代数的神经元，所以理论上，我们应该是可以把它拆成一种人类可以理解的方式的。

2025-04-19 23:01:24 759

原创一封价值320亿美元的246字信

一家公司由三位没有产品、只有一个展示他们给世界的21句信件的网站的人创立，却以320亿美元的估值筹集了资金，相当于现代汽车这样的公司。

2025-04-18 23:22:42 963

原创 AI 技术栈不复杂：四个层级讲明白，我选了最香的一层

虽然当时很多建议不靠谱，被大家吐槽，但现在有了 LLM，可以做一个真正强大的 Clippy。而且他们早就习惯用 ChatGPT，就算我这个比它强两三倍，他们也不会换（当然，“强”的定义也难讲清楚。记住，大模型层的公司天天都在卷：更强、更快、更便宜的模型一波接一波。比如你用的是 GPT-4o，OpenAI 更新了模型，你啥也不用做，直接吃上红利，性能蹭蹭提升。你不希望你的 AI 一直骚扰用户，不然会很烦。我也说了为啥我觉得应用层是最好的切入点：因为不容易被商品化，离用户最近，而且能吃到底层带来的好处。

2025-04-17 08:29:32 996

原创当AI开始相信其他AI的幻觉时，我们就完蛋了

每一个像我这样会去查实AI内容的人，背后都有二十个内容创作者、市场人员和写脚本的机器人，他们只要机器产出的内容听起来震撼、能赚点击，就毫不犹豫地放出去。当AI系统彼此引用对方“幻想”出来的虚假信息时，信息生态将陷入一个自我循环的扭曲现实中，导致人类社会被误导、被欺骗，甚至危及法律、医疗、科研等关键领域的真实决策。我看着的是一个误导金字塔——一个AI编了个“事实”，另一个AI当成真理在到处传，然后我差点就信了，还打算推荐给客户，客户可能会在董事会上继续讲，然后变成新闻稿，最后被收录进下一个AI的训练数据！

2025-04-16 21:27:56 780

原创 LLM 的注意力黑洞：为什么第一个 Token 吸走了所有注意力？

总结一下，注意力机制让 transformer 能混合信息，但如果混合得太随意，那么一个 token 的小改动可能会影响整个序列（或者说影响很多 token），这就是“混过头”了（overmixing）。另外，如果某些 token 成为注意力黑洞，模型中的信息流可能会被改变，导致模型忽视了其它 token 中的重要上下文信息。总之，预训练策略会影响注意力黑洞的形成方式，但无论如何，第一个 token 成为注意力黑洞几乎是不可避免的。理解注意力黑洞的角色，可以帮我们训练出更稳的模型，设计出更强健的微调策略。

2025-04-15 09:55:49 595

空空如也

空空如也