百度Geek说-CSDN博客

原创打破算力瓶颈！起底百度智能云高性能存储加速系统如何让昆仑芯3万卡集群火力全开

测试结果显示，20个RapidFS存储节点稳定提供了302 GiB/s吞吐，70个RapidFS存储节点稳定提供了1.03 TiB/s吞吐。为此，我们为RapidFS存储加速服务部署了数百台国产CPU服务器，集群设计总吞吐接近10 TiB/s，以满足3万卡昆仑芯集群大规模数据读写需求。同时，这也意味着在70个RapidFS存储节点提供加速的情况下，100个计算节点并发加载10 GiB的文件仅需1秒，让数据随叫随到。我们分别对20个存储节点和70个存储节点规模的RapidFS集群进行了性能测试。

2025-05-15 15:21:04 256

原创 Qwen3 系列全家桶，百度百舸一键部署

针对大模型 PD 分离式推理部署方案，百度百舸平台支持自适应 PD 任意配比、细粒度 PD 负载均衡、自适应最优混合并行策略、动态冗余专家编排等，降低 40% TPOT 和 95% 推理成本，实现了极致的推理加速优化。百度百舸·AI 异构计算平台，是面向大模型训推一体化的基础设施，提供领先的 AI 工程加速能力，从资源准备、模型开发、模型训练到模型部署，为 AI 工程全周期提供丰富特性和极致易用体验。登录百度百舸·AI 异构计算平台，在「**快速开始」**找到 Qwen3 系列模型。

2025-05-13 14:37:48 493

原创中国自动驾驶研发解决方案，第一！

在这样的趋势下，百度智能云快速完成迭代，将汽车云解决方案已经升级到了3.0版，为车企提供了强大的算力支撑、精准的算法适配、高质量仿真场景及车路协同等核心技术，针对端到端智能驾驶进行了重点的适配，有力推动了自动驾驶的量产落地。智能驾驶进入AI时代，智算基础设施与算法、数据三者协同发展，端到端智驾正成为业内共识，车企和供应商不断加码算力集群采购、新算法架构搭建、仿真测试等资本支出，头部客户算力花销和算力规模正朝着亿级、10EFlops级别演进。百度沈抖：智能基础设施，为应用而生。

2025-05-08 15:59:15 450

原创千亿级打点PV的成本治理实践

△总结与展望日志中台打点治理实践方案已经取得了一定的项目收益，协助用户优化了了打点体验，提升了打点质量，升级了业务性能，同时也助力了手百等业务的稳健、高质量发展，在未来日志中台会持续打造业界领先的打点治理方案，进一步优化用户体验，帮助用户精细化排查点位波动的原因，更为精准化的定位问题原因，精密化提升打点收益与产出，切切实实使每一次打点都取得超出预期的收益。同时进一步助力业务发展，降低手百每人每天上报的日志数目，在有限的打点资源内尽可能创造更高规模的收益。

2025-04-29 10:36:11 593

原创名列前茅！百度文心大模型4.5及X1在中国信通院“方升”大模型基准测试中表现优异

中国人工智能产业发展联盟（以下简称“AIIA”）紧密跟踪大模型和智能体的技术发展与行业应用动态，构建并发布了“方升”（FactTesting）大模型基准测试体系，自2024年以来已对国内外开源与闭源大模型开展了6轮能力监测，累计测试了200余个大模型，持续跟踪其技术演进与表现，为行业技术选型与能力评估提供了重要依据。**作为能力更全面的深度思考模型，文心大模型X1兼备准确、创意和文采，在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。

2025-04-17 09:51:27 731

原创飞桨新一代框架3.0正式发布：加速大模型时代的技术创新与产业应用

在大模型时代，深度学习框架的重要性愈发凸显，成为推动人工智能技术发展的核心引擎。算法、算力、数据作为人工智能技术的三大要素，其相互作用与协同发展不断催生着新的突破。越来越多的实例证明，算法创新能够发挥出更为显著的威力。DeepMind 的 AlphaFold3通过动态扩散算法突破蛋白质结构预测精度，已成功应用于抗疟疾等药物分子设计；DeepSeek 通过算法创新，成功提升了 DeepSeek V3模型的性价比，大幅降低了训练成本。这些突破性进展表明，算法创新正在重构技术发展的成本曲线。然而，

2025-04-15 10:16:31 1371

原创一篇论文，看见百度广告推荐系统在大模型时代的革新

经过一系列提升和改进，生成式 AI 已经可以做到表达清晰、预测准确，并在百度的广告推荐系统中实现了应用。与很多领域一样，推荐系统正在向着需求个性化的方向快速发展，而在这个方向上，AI 提供的解决方案已经展现出了独特的优势。对于普通人来说，在各种 App 上，大模型驱动的推荐系统可以帮助我们获取更多有用的内容，让信息流更加聪明。对于科技公司而言，或许在几年之内，AI 驱动的业务就可以从目前的局部智能化进化到「需求预测 - 生产调度 - 仓储物流 - 营销交付」的全流程智能化阶段。

2025-04-08 10:26:09 1403

原创前沿多模态模型开发与应用实战3：DeepSeek-VL2多模态理解大模型算法解析与功能抢先体验

而前两期课程介绍的 Qwen2.5VL、Janus-Pro 以及 DeepSeek-VL第一代模型，则是经典的 Dense 类的多模态理解大模型，会对所有模型参数进行计算和更新。与其前身 DeepSeek-VL 相比，DeepSeek-VL2在视觉编码器和语言建模部分都有了显著的提升，这主要是因为 DeepSeek-VL2引入了两项重大改进：动态切片策略，以及采用多头隐变量注意力（Multi-head Latent Attention，MLA）机制的 DeepSeek-MoE 语言模型。

2025-04-03 11:01:32 975

原创图灵数据洞察平台-TDF（Turing Data Finder）

TDF平台致力于打造全自动的、全流程的解决方案用于提升用增场景数据分析的深度，适配核心业务增长需求。整体架构如下：整体流程为数据开发工程师产出固定格式的ck明细日志后，用户在明细日志的基础上进行用户行为分析和用户分析，分析结果可保存至仪表盘。接下来从数据接入与管理、增长分析、仪表盘等方面对TDF功能进行详细的描述。

2025-03-25 11:00:42 784

原创百度百舸万卡集群的训练稳定性系统设计和实践

2012 年 ImageNet 竞赛中 AlexNet 的横空出世，开启了现代 AI 发展的新纪元。彼时我们不会想到，十年后支撑 AI 训练的 GPU 集群会从研究室里的几台服务器，发展成需要专门供电系统的万卡级计算矩阵。在这个算力爆发式增长的过程中，训练系统的稳定性管理正经历着从「简单运维」到「精密工程」的深刻变革。2022 年之前的 AI 训练，更像是手工作坊式的精雕细琢。大多数训练任务只需十几块 GPU，利用 PyTorch 或 TensorFlow 的数据并行功能就能轻松应对。

2025-03-18 10:14:54 561

原创 LLM增强语义嵌入的模型算法综述

本文开篇即对文本语义嵌入方法进行了系统性概述，剖析了当前主流算法模型的架构特征及其发展脉络与趋势。鉴于 LLM 的迅速崛起，文章进一步在多维视角下对比了 LLM 文本嵌入技术与传统语义嵌入方法之间的显著差异。传统的文本语义嵌入技术以其高效性、广泛应用性和强大的语义表示能力为众多任务提供了有力支持，在自然语言处理领域占据重要地位。然而，该技术也面临着数据依赖性、静态性以及计算资源消耗等瓶颈问题。相比之下，LLM 通过捕捉文本上下文信息、支持多语言处理及出色的生成能力，为提升文本嵌入质量带来了新视角。

2025-03-13 10:51:29 699

原创基于Flink的配置化实时反作弊系统

在互联网业务高速发展的今天，反作弊已成为APP厂商生态稳定运行的重要保障。作弊行为层出不穷，包括恶意点击、刷单、羊毛党等，这些行为不仅会破坏平台公平性，还可能造成巨大的经济损失。因此，构建一个高效、灵活、可扩展的实时反作弊系统变得尤为重要。反作弊系统根据业务属性和时效性可分为三类：在线反作弊、实时反作弊与离线反作弊。其中，在线反作弊具备最高的时效性，能够即时响应风险；离线反作弊依托最全面的信息，支持深度分析与建模；而实时反作弊则兼具二者优势，提供平衡的时效性与信息丰富度。

2025-03-04 10:30:03 243

原创图引擎在智能体开发场景的应用实践

LangChain框架：一个开发智能体的框架，定义了prompts, index, memory, agents, tools, outputParser等一系列功能抽象,通过chains将各个功能串联成应用。开发模式：Chains: 规划静态任务, 很多抽象都实现了chains的接口，规划好路径就能让各功能有序执行AgentExecutor: 执行动态任务，某些场景无法预知执行路径，需要不同的输入走不同的分支，因此引入代理人(AgentExecutor), 通过多轮循环推理产生最终结果。

2025-02-25 10:02:55 315

原创直播间互动框架性能优化与稳定性实践

沉淀直播框架能力：通过优化直播间视图容器组件，并形成标准化的组合能力样板，拉升直播间活动页面的性能水准，这些方案具备良好复用性，适用于未来各种直播活动。系统稳定性保障：组件复用、性能监控和容错机制，减少重复开发和维护成本，进行压力测试与优化，提升系统可靠性和用户体验，确保高峰流量下的稳定性。强化互动性体验：在直播歌会中建立综合能力框架，特别是在抢红包等互动性强的活动中，确保用户在享受歌会演出的同时体验流畅的互动，鼓励积极参与推荐阅读百度网盘防雪崩架构实践。

2025-02-20 10:25:59 202

原创百度网盘防雪崩架构实践

百度网盘业务形态众多，业务的高速迭代发展需要建立在可靠的架构基础之上。在整个架构演进过程，可用性是非常重要的事情，于是设计了一套防雪崩架构，具体包括两部分：流量限制：可以分成两部分，一个是流量接入层，解决ddos连接数攻击，另外一部分是流量转发层，通过动态熔断策略将后端能处理的请求数转发给后端；流量处理：业务基于流量有效性进行处理，避免处理无效请求。最终对雪崩的治理也取得了不错的效果，单个季度可以规避若干次的雪崩故障发生，保障了网盘业务的可用性。

2025-02-18 10:29:19 188

原创如何在百度百舸部署满血版DeepSeek-V3、DeepSeek-R1模型

百度百舸·AI异构计算平台已支持快速部署DeepSeek-V3、DeepSeek-R1及其蒸馏的Llama、Qwen等小规模dense模型。您可以登录百度百舸平台快速部署DeepSeek系列模型体验模型效果。

2025-02-13 11:07:42 637

原创首日调用客户破1.5万！DeepSeek-V3/R1上线背后的超低推理成本技术揭秘

2月3日，百度智能云千帆大模型平台正式上线了，当前还可享受限时免费服务。这一突破性进展的背后，是百度智能云在上的深度融合。本文将深度解析其技术实现路径。已上架至千帆ModelBuilder「模型广场」可在千帆ModelBuilder「体验中心」立即体验。

2025-02-11 10:13:16 760

原创唤醒 AI 算力，专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

从「建好」到「用好」，企业级智算平台借助专有云 ABC Stack 的 GPU 提效服务，应对大模型业务挑战，唤醒 AI 算力，加速 AI 原生业务的落地。

2025-02-06 10:27:56 722

原创百度APP iOS端磁盘优化实践（上）

2.1 ios沙盒系统沙盒机制是iOS系统中的一种安全体系。每个iOS程序都有一个独立的文件系统，而且只能在对应的文件系统中进行操作，此区域被称之为沙盒（SandBox）。APP中所有文件都保存在此，如文本文件、图片、图标、媒体资源、Mach-O等。主要包含4个目录 MyApp.app、Documents、Library、tmp。MyApp.app目录包含应用程序及其所有资源，即.ipa安装包解压后的.app内容，仅支持只读访问。

2025-01-23 10:36:06 1818

原创 0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

大模型推理引擎是生成式语言模型运转的发动机，是接受客户输入 prompt 和生成返回 response 的枢纽，也是拉起异构硬件，将物理电能转换为人类知识的变形金刚。大模型推理引擎的基本工作模式可以概括为，接收包括输入 prompt 和采样参数的并发请求，分词并且组装成 batch 输入给引擎，调度 GPU 执行前向推理，处理计算结果并转为词元返回给用户。和人类大脑处理语言的机制类似，大模型首先会把输入的 prompt 进行统一理解，形成具有记忆能力的上下文。这个阶段通常称为 Prefill 阶段。

2025-01-16 10:10:39 776

原创百度视频搜索架构演进

视频搜索排序框架通过系统分层优化、Rankflow框架引入及弹性资源复用等架构演进，显著提升了排序系统的性能与灵活性，提高研发效率，降低了长期运营成本。在大模型技术趋势下，视频搜索系统如何更好提供RAG搜索增强功能。如何使视频与通搜端到端融合，达到搜索端到端理想态，都是我们后续探索研究的方向。推荐阅读网页结构建模在低质采集站上的识别应用如何定量分析 Llama 3，大模型系统工程师视角的 Transformer 架构微服务架构革新：百度Jarvis2.0与云原生技术的力量技术路线速通！

2025-01-09 10:22:28 1717

原创网页结构建模在低质采集站上的识别应用

本文首先讨论了恶劣采集作弊站点的识别难点，以及利用网页结构信息进行辅助识别的必要性。然后介绍了MarkupLM对于内容文本和页面排版的优势。最后介绍反作弊方向将MarkupLM建模方法应用于恶劣采集站上的识别，并通过实验展示XPath embedding结构对于识别作弊站的效果。除了应用在恶劣采集站的识别上，这样引入网页结构信息的建模方式还可以尝试扩展到其他的一些针对网页类型的作弊识别模型上，亦或是作为网页特征提取的基座对作弊页面实现多分类功能。参考文献cs.CL推荐阅读海量存储的批量计算框架。

2025-01-07 10:18:00 1086

原创海量存储的批量计算框架

Neptune引擎主要支持四类操作：写、删、读、Scan。每一类操作都通过RegionMapper进行映射，对外隔离分区概念。Neptune存在两类分区：索引分区、数据分区。索引分区。索引分区用于减少因为数据分区导致Key所在数据分区不明确导致的随机访问IO放大问题，提升随机查性能。数据分区。Neptune可配置多个数据分区，每个数据分区内包含多个Locality-Group。分区间的数据理论上是互斥的。Neptune各类操作的流程：写操作：

2024-12-31 10:20:27 787

原创网页多模态建模思考

本文从网页理解业务出发，从多模态信息融合，预训练任务构建角度，探讨通用网页建模方案。首先，指出网页的特殊性，即从不同观察视角下，网页存在富文本、树形结构，和图层堆叠三种形态。在此基础上，对比了多种多模态融合思路的优缺点，给出一种较好的方案。进一步，提出多粒度、多维度的网页预训练方案；最后，探索了大模型时代，利用现有多模态模型，低成本的适配到网页的一种可行思路。

2024-12-26 10:35:08 918

原创百度垂搜一站式研发平台演进实践

业务加速创新，在需求越来越多、迭代越来越块、创新能力要求越来越高的背景下，如何通过技术手段为业务开发降本增效提质做出突破，是搜索架构、也是众多产品研发平台需要思考和解决的问题。经天一站式研发平台从业务场景和痛点出发，对复杂的后端系统深入开展了平台化探索和实践，据此形成一套从技术思路、到系统能力、再到业务运营可借鉴可复用的一站式平台解决方案，整个解决方案包含3个关键组成：基于FaaS机制，实现业务需求的快速迭代，帮助业务少写代码;

2024-12-24 10:32:40 814

原创初探图谱Embedding用于异常检测（一）

在第一篇论文中，作者提出了一种基于One-Hot编码的图谱Embedding算法——GEE(Graph Encoder Embedding)。首先构造输入数据：a. E: 图谱的边集，是一个三元组的列表，每个元组的三个元素分别代表两个顶点的索引值，以及边的权重。b. Y: 图谱的顶点集，是一个整数列表，长度为N, 每个元素为相应顶点的标签，取值范围为[0, K], K为标签的类别数量。

2024-12-19 10:21:00 825

原创 AIAPI - 转向AI原生检索

2.1 AIAPI的设计要求AIAIP的设计要求是为了提供更好的检索效果用于模型生成，同时又兼顾资源，速度，效率等需求。要求从系统层面到数据效果层面均有比较大的提升。为了更好的拓展接口和能力，Aiapi设计了一整套标准协议，保证了接口的高可解释性、可扩展性，增强大模型对检索内容吸收理解能力；同时提供基于QueryPlan的多级Qos系统控制，在保障效果的同时追求成本控制的极限；数据上：优质：优质性包括了数据来源是权威的、可信的、优质的、实时的。在大模型场景下权威优质库带来的体验提升可能远大于全网库。

2024-12-17 10:49:11 700

原创 AI Agent重塑微服务治理

推荐阅读百度智能云千帆大模型平台引领企业创新增长轻松搞定平稳运行，数据库平台 DBStack 帮助 DBA 运维不同基础设施上的各类数据库基于PP-ShiTuv2新增PaddleX图像识别模型产线，显著提升商品识别等细粒度开放域产业场景检索性能基于GPU的ANN检索维度爆炸背景下uv计算在Feed业务的高效实践。

2024-12-05 13:05:51 805

原创百度智能云千帆大模型平台引领企业创新增长

提供了最专业的应用开发工具、最丰富的大模型、最全面的工具链。千帆 ModelBuilder 提供的就是全流程的、模型训练和模型精调的工具链，包含：数据管理、训练模式、开发工具、评估优化、推理部署、大模型周边系统。除了智能体作为应用载体之外，还有非常多的企业级传统应用，过去是通过写代码的方式开发，今天我们通过大模型也实现了零代码分钟级开发，它就是 AI 速搭平台。今天我的发布到此结束，非常希望通过千帆平台，以及我们的一系列样板间，持续为大家提供最低门槛、最高效易用的大模型落地工具，加速企业落地的最后一公里。

2024-12-03 10:36:05 1076

原创基于PP-ShiTuv2新增PaddleX图像识别模型产线，显著提升商品识别等细粒度开放域产业场景检索性能

该系统从骨干网络选择和调整、损失函数的选择、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型裁剪量化多个方面，融合改进多种策略，对各个模块进行优化，最终在多个实际应用场景上的检索性能均有较好效果，且在处理商品等细粒度开放域场景时，PP-ShiTuV2相较于单一的开放域目标检测模型展现出明显优势。最后即可使用 **predict()**方法进行预测，对于预测结果支持 **print()**方法进行打印，以及 **save_to_img()**方法进行可视化并保存为图片。

2024-11-26 10:13:03 547

原创基于GPU的ANN检索

假定一个库种承载的总流量为 x ，单个库层的总成本为 y，每个副本所使用的GPU总成本 p2 要高于使用CPU的总成本 p1，GPU方案和CPU方案下每个副本能承载的流量分别为 q2 和 q1，那么GPU方案单个库层的总成本为 y2 = ceil (x / q2) * p2，CPU方案单个库层的总成本为y1 = ceil (x / q1) * p1。根据近似思路的不同，ANN检索算法主要分为四类：基于树的ANN算法、基于LSH的ANN算法、基于量化的ANN算法和基于图的ANN算法。

2024-11-21 10:24:18 946

原创维度爆炸背景下uv计算在Feed业务的高效实践

常见的基于数据膨胀的用户数计算方法，数据计算大小和过程数据传输量将随着维度的数量呈指数爆炸增长，维度数越多，花费在数据膨胀与Shuffle传输的资源和耗时占比越高。为了解决数据膨胀过程中产生的大量过程数据，基于数据标签的思路反向操作，先对数据聚合为cuid+日志维度粒度，过程中将需要的维度组合转化编码数字并赋予cuid数据上，整个计算过程数据呈收敛聚合状，数据计算过程较为稳定，数据条数、shuffle量不会随着维度组合的进一步增加而大幅增加。

2024-11-19 10:29:24 1051 1

原创数据湖系列之四 | 数据湖存储加速方案的发展和对比分析

因此近年来，各大云服务商纷纷推出了自己的缓存加速产品，比如 AWS 的 FileCache、百度智能云的 RapidFS、阿里云的 JindoFS、腾讯云的 GooseFS 等，在 AI 和大数据的大部分场景下都能取得接近并行文件系统的加速效果。早期产品只提供了手动指定目录的数据加载和沉降方式，后来开始支持 Inventory 清单导入、周期性自动加载、增量同步、读时按需加载、自动淘汰等丰富功能，有的产品进一步将策略开放给业务定制，例如根据文件名后缀、大小、路径等规则实现更智能的数据流转。

2024-11-14 10:07:48 1172

原创大模型时代，云原生数据底座的创新和实践

缓存数据库核心挑战还是在性能、成本、高可用方面，在过去一年里面，我们核心优化了这些方面，性能上支持批量加载，高用上支持异地多活的能力，成本上支持冷热分离，通过把相对较冷的数据自动迁移到 SSD 上显著降低成本。需要经过一系列加工，包括采集，清洗，转换，标注等等才能转换成大模型或者向量数据库可以处理的数据，从而支撑后面的各种业务。但是对用户来说，一个简单的，容易使用产品是刚需，所以整个业界的整体趋势都是往一体化方向发展，给用户提供完整的开发体验统一的数据湖管理、数据治理的能力。

2024-11-12 10:41:55 1089

原创百度沧海·存储统一技术底座架构演进

随着 AI 时代的快速发展，对存储技术提出了更高的要求，尤其是在大规模、高性能和低成本方面。为了应对这些挑战，百度沧海·存储打造了一个高度可复用的统一技术底座。我们在这个统一的技术底座中解决了云存储的共性问题，让上层存储系统的迭代更高效。首先，我将简要介绍一下百度沧海·存储统一技术底座的整体架构。这个统一的技术底座由三个核心组件构成，分别是统一的元数据底座、统一的层级 Namespace 以及统一的数据底座。

2024-11-07 11:25:10 902

原创计算不停歇，百度沧海数据湖存储加速方案 2.0 设计和实践

第二个是规模问题，单个 HDFS 集群的 Namenode 最高支持 10 亿量级的规模的文件数，现在大模型训练文件数最高会超过百亿，甚至千亿的文件规模， HDFS 集群很难满足，虽然有一些改进方案，如集群的 Federation 可以使支持的规模变得大一些，实际上会牺牲很多特性，带来使用上的不便。第一代的层级 Namespace 方案，是单机的方案，最典型的代表是 HDFS 的目录树全内存方案，这种方案性能高，但是扩展性差，只能在 10 亿的量级。在单机架构下还有一个问题待解决，就是如何提升系统的吞吐。

2024-11-05 10:07:32 922

空空如也

空空如也