- 博客(548)
- 资源 (4)
- 收藏
- 关注

原创 NVIDIA GTC 开发者社区Watch Party资料汇总
以下是所有涉及到的工具中文解读汇总,希望可以帮到各位7. NVIDIA nvmath-python:高性能数学库的Pyth
2025-03-24 09:34:04
2052

原创 NVIDIA 开发者社区第十一届Sky Hackathon训练营实验手册---AWS Sagemaker AI部分
在这部分实验中,我们将利用AWS Sagemaker下载并部署NIM。
2025-02-15 20:56:38
1547

原创 162个例子告诉你在NVIDIA开发者社区夏令营能学到什么
NVIDIA开发者社区AI-Agent夏令营作品合集, 通过这162个例子,向大家展示了在2024 NVIDIA开发者训练营中开发者朋友们用NVIDIA NIM做了什么样的优秀作品
2024-08-21 09:42:56
3057
3

原创 2024 NVIDIA开发者社区夏令营环境配置指南(Win & Mac)
2024 NVIDIA开发者社区夏令营环境配置指南(Win & Mac)
2024-08-04 19:04:22
5040
1

原创 NVIDIA Chat With RTX安装使用教程
世界各地每天有数百万人使用聊天机器人,由基于 NVIDIA GPU 的云服务器提供支持。现在,这些突破性工具即将登陆由 NVIDIA RTX 提供支持的 Windows PC,以实现本地、快速、自定义的生成 AI。Chat with RTX 是一个技术演示,现已免费下载,可让用户使用自己的内容个性化聊天机器人,并由本地 NVIDIA GeForce RTX 30 系列 GPU 或更高版本(具有至少 8GB 显存和 VRAM)加速。
2024-02-23 05:16:12
10430
19
原创 NVIDIA Dynamo:数据中心规模的分布式推理服务框架深度解析
摘要 NVIDIA Dynamo是一款专为大规模生成式AI推理设计的分布式服务框架,通过创新的分离服务架构和智能路由系统,显著提升了推理性能和资源利用率。该框架将预填充与解码阶段分离到不同引擎,实现KV缓存感知的智能路由,并采用多层内存管理技术优化缓存效率。Dynamo支持多种推理引擎(TensorRT-LLM、vLLM等),提供OpenAI兼容API,通过Rust/Python混合架构兼顾性能与易用性。本文详细解析了Dynamo的核心架构、关键技术实现及部署方案,为构建高效分布式推理服务提供参考。
2025-06-06 12:12:34
232
原创 MCP LLM Bridge:连接Model Context Protocol与OpenAI兼容LLM的桥梁
MCP LLM Bridge 是一个连接 Model Context Protocol (MCP) 服务器与 OpenAI 兼容大型语言模型 (LLM) 的桥接工具,旨在解决不同模型协议之间的集成挑战。它通过双向协议转换,将 MCP 工具规范转换为 OpenAI 函数模式,并处理函数调用映射到 MCP 工具执行,支持云端和本地部署的模型(如 Ollama)。
2025-05-17 18:49:28
1097
1
原创 FastMCP:为大语言模型构建强大的上下文和工具服务
FastMCP是一个高效的Python库,旨在为大语言模型(LLM)提供强大的上下文和工具服务。它基于模型上下文协议(MCP),该协议为LLM与外部系统的交互提供了标准化方式。FastMCP简化了MCP服务器和客户端的构建,具有高效开发、简洁设计和Python风格等优势。其核心功能包括资源(Resources)、工具(Tools)、提示(Prompts)和上下文(Context),分别用于提供数据、执行操作、创建提示模板和增强交互功能。
2025-05-17 18:47:58
1928
1
原创 第十一届Sky Hackathon大赛圆满落幕:多模态RAG技术创新成果丰硕
项目名称:硬件开发的iPhone时刻:AI一键生成电路项目简介该项目旨在通过AI技术革新硬件开发流程,实现一键生成电路设计。团队开发的PCBTool利用NVIDIA NIM平台和多模态RAG技术,能够根据用户需求自动生成电路图和PCB布局,大幅降低了硬件开发门槛,提高了开发效率。第十一届Sky Hackathon大赛通过"构建具有多模态检索增强生成(RAG)功能的AI聊天机器人"这一主题,成功推动了参赛者对RAG技术和大模型应用的深入探索。
2025-04-21 08:52:00
661
原创 NVIDIA AgentIQ 详细介绍
AgentIQ 采用模块化架构,将代理、工具和工作流抽象为函数,实现高度的可组合性和可重用性。函数(Functions):AgentIQ 中的基本构建块,可以是工具、代理或工作流。每个函数都有明确定义的输入和输出,使其可以轻松组合。工作流(Workflows):定义代理如何使用工具和与用户交互的流程。AgentIQ 支持多种工作流类型,包括 ReAct、函数调用和自定义工作流。语言模型(LLMs):AgentIQ 支持多种语言模型,包括 NVIDIA NIM 服务、OpenAI 和 Anthropic 等。
2025-04-04 21:43:41
862
原创 7大支持MCP的AI框架:为LLM和智能代理提供上下文的新标准
可以将MCP视为LLM的第三次演进。在第一次演进中,我们拥有能够准确回答用户提示的LLM,前提是它们在训练数据中找到了这些查询。在这个阶段,由于它们无法访问外部工具,因此无法对训练数据之外的提示做出有意义的响应。在LLM的第二次演进中,我们为它们提供了额外的上下文(工具),这些工具虽然不直观,但能够帮助LLM准确预测和回答用户意图。第三次演进仍然包括LLM和工具,但我们实现了一个适当的基础设施,使它们能够访问外部应用程序并确保易于维护。
2025-04-04 21:42:49
934
原创 轻量级多模态多语言Gemma 3模型:为性能而优化
在构建基于基础模型的AI系统时,开发者需要在内存、延迟、存储、计算等资源之间取得微妙的平衡。对于管理成本和用户体验的开发者来说,没有一种通用的解决方案适合所有情况,尤其是在将生成式AI能力引入快速增长的AI驱动应用生态系统时。开发者需要高质量、可定制的模型选项,这些模型能够支持在不同计算环境中部署和托管的大规模服务,从数据中心到边缘计算再到设备端应用场景。Google DeepMind刚刚宣布推出Gemma 3,这是一系列新的多模态和多语言开源模型。
2025-04-03 14:49:47
1118
原创 NVIDIA Blackwell在MLPerf Inference v5.0中实现性能飞跃
MLPerf Inference v5.0是一个长期运行的基准测试套件,旨在测量各种不同模型和使用场景下的推理吞吐量。自2019年首次推出以来,MLPerf Inference不断更新,增加新模型和场景,确保其作为测量AI计算平台推理性能的有效工具。:一个拥有4050亿参数的密集LLM。对于服务器场景,该基准测试设定了首个token生成时间(TTFT)为6秒,每个输出token的时间(TPOT)为175毫秒的延迟要求。:一个拥有700亿参数的密集LLM。
2025-04-03 08:52:43
805
原创 使用NVIDIA NIM微服务加速科学文献综述
我们在生成式AI编程节的工作展示了AI在加速系统文献综述方面的变革潜力。借助NVIDIA NIM,我们快速从想法转变为工作解决方案,显著改进了从科学论文中提取信息的过程。这一经验突显了AI如何能够简化研究工作流程,实现更快速、更全面的洞察。LLM有潜力促进跨学科研究,使科学家能够更有效地探索复杂的多领域研究领域。展望未来,我们的目标是完善这些方法和工具,确保它们对未来跨各种主题的研究具有可访问性和可扩展性。
2025-04-02 10:50:36
733
原创 使用NVIDIA Cosmos世界基础模型扩展合成数据和物理AI推理能力
在人工智能快速发展的今天,下一代AI驱动的机器人,如人形机器人和自动驾驶汽车,都依赖于高保真、物理感知的训练数据。然而,如果没有多样化且具代表性的数据集,这些系统将无法获得适当的训练,并在测试中面临诸多风险:泛化能力差、对真实世界变化的适应有限、在边缘情况下行为不可预测等。而收集大规模真实世界数据集不仅成本高昂,还极其耗时,且常常受到现实可能性的限制。NVIDIA Cosmos通过加速世界基础模型(World Foundation Model, WFM)的开发来解决这一挑战。
2025-04-02 10:36:02
752
原创 NVIDIA工业设施数字孪生中的机器人模拟
工业设施数字孪生中的机器人仿真是未来智能制造的关键技术。通过NVIDIA提供的强大工具,工程师可以创建高度逼真的虚拟环境,模拟机器人操作,优化性能,并在物理部署前识别潜在问题。随着计算能力的不断提升和仿真技术的进步,我们可以期待数字孪生技术在工业自动化中发挥越来越重要的作用,推动智能制造进入新的发展阶段。
2025-04-01 16:30:56
1067
原创 使用Hugging Face训练自定义重排模型(Reranker)完全指南
重排模型(Reranker)是一种特殊类型的神经网络模型,专门用于评估查询(query)和文档(document)之间的相关性。与嵌入模型(Embedding Model)不同,重排模型不会将文本转换为向量,而是直接输出一个相关性得分。这使得重排模型能够捕捉到更细微的语义关系,提高搜索结果的质量。# 自定义数据集示例# 准备数据"query": ["如何训练重排模型?", "深度学习入门教程", "Python编程基础"],
2025-04-01 10:00:03
1303
原创 R²D²:NVIDIA研究院推进机器人移动性和全身控制的创新工作流程与AI基础模型
我们通过在平台上验证的先进研究来解决这些挑战。我们的方法将前沿研究与工程工作流程相结合,并在我们的AI和机器人平台上进行测试,包括NVIDIA Omniverse、Cosmos、Isaac Sim和Isaac Lab。由此产生的模型、策略和数据集作为可定制的参考,供研究和开发者社区根据特定机器人需求进行调整。我们期待分享我们的发现,并共同构建机器人技术的未来。
2025-03-31 11:37:34
2064
原创 图数据结构详解:概念、实现与应用
图(Graph)是一种非线性数据结构,由顶点(Vertex)和边(Edge)组成。直观地说,图是由点和连接这些点的线组成的。在数学上,图通常表示为G = (V, E),其中V是顶点集合,E是边集合。社交网络中的人际关系城市之间的道路连接计算机网络中的连接关系分子结构中的原子连接任务之间的依赖关系图是一种非常强大和灵活的数据结构,它可以用来表示各种复杂的关系和网络。在本教程中,我们深入探讨了图的基本概念、表示方法、遍历算法以及一些重要的应用和高级主题。图的基本概念和术语。
2025-03-31 11:16:41
1314
原创 数据结构中的树:从基础概念到C++实现
树(Tree)是一种非线性的数据结构,它是由n(n≥0)个有限节点组成的一个具有层次关系的集合。当n=0时,称为空树。有且仅有一个特定的称为根(Root)的节点其余节点可分为m(m≥0)个互不相交的有限集T1、T2、…、Tm,其中每个集合本身又是一棵树,称为原树的子树(SubTree)树的结构之所以称为"树",是因为它看起来像一棵倒置的树,根在上,叶在下。二叉树是最常见和最重要的树类型之一,它的每个节点最多有两个子节点,通常称为左子节点和右子节点。每个节点最多有两个子节点。
2025-03-30 11:45:58
550
原创 Model Context Protocol (MCP) 详解:连接AI与数据的开放标准
Model Context Protocol(MCP)是一个开放协议,用于标准化应用程序如何向大型语言模型(LLM)提供上下文。它可以被比喻为"AI应用程序的USB-C端口"。正如USB-C提供了一种标准化的方式来连接设备与各种外设和配件,MCP提供了一种标准化的方式来连接AI模型与不同的数据源和工具。MCP的核心目标是解决AI助手与数据之间的隔离问题。即使是最先进的模型也受到与数据隔离的限制——它们被困在信息孤岛和传统系统之后。每个新的数据源都需要自己的定制实现,使真正连接的系统难以扩展。
2025-03-30 08:00:00
1556
原创 NVIDIA DALI:Python深度学习数据加载和预处理库详解
NVIDIA DALI是一个高性能的数据加载和预处理库,专为深度学习和数据科学应用程序设计。它提供了一套灵活的API,允许用户构建高效的数据处理管道,以加速深度学习训练过程中的数据准备阶段。DALI利用GPU的并行计算能力,将数据加载和预处理操作从CPU卸载到GPU,从而显著提高数据处理效率。NVIDIA DALI是一个强大的数据加载和预处理库,通过GPU加速和流水线并行化,显著提高了深度学习训练的效率。它与主流深度学习框架无缝集成,支持各种数据格式和预处理操作,是深度学习工作流程中不可或缺的工具。
2025-03-29 09:00:00
821
原创 NVIDIA Merlin:GPU加速推荐系统全指南
NVIDIA Merlin是一个开源库,旨在加速NVIDIA GPU上的推荐系统。该库使数据科学家、机器学习工程师和研究人员能够大规模构建高性能推荐系统。Merlin包含了解决常见特征工程、训练和推理挑战的工具。Merlin流水线的每个阶段都经过优化,可支持数百TB的数据,所有这些都可以通过易于使用的API访问。NVIDIA Merlin是一个强大的开源库,专为在NVIDIA GPU上加速推荐系统而设计。
2025-03-29 09:00:00
750
原创 C++链表详解:从基础概念到高级应用
链表是计算机科学中最基础也是最重要的数据结构之一,它在内存管理、算法实现和实际应用中扮演着关键角色。本文将详细介绍链表的概念、类型、C++实现以及实际应用场景,帮助读者全面理解这一重要的数据结构。
2025-03-28 18:16:50
968
原创 NVIDIA cuOpt:GPU加速优化AI微服务详解
混合整数线性规划(Mixed Integer Linear Programming, MILP)线性规划(Linear Programming, LP)车辆路径问题(Vehicle Routing Problems, VRP)cuOpt能够为包含数百万变量和约束条件的大规模问题提供近实时的解决方案,可以轻松集成到现有求解器中,并能在混合和多云环境中无缝部署。注意:线性规划(LP)和混合整数线性规划(MILP)目前是早期访问功能,仅向特定客户开放。
2025-03-28 13:45:52
1114
原创 NVIDIA cuQuantum 详细教程:高性能量子计算模拟库
在传统(“经典”)计算机中,一个比特只能是0或1。而量子比特(“quantum bit"或"qubit”)则可以表示为两种状态的线性叠加。∣ψ⟩α∣0⟩β∣1⟩∣ψ⟩α∣0⟩β∣1⟩其中∣0⟩|0\rangle∣0⟩和∣1⟩|1\rangle∣1⟩⟨0∣0⟩1⟨1∣1⟩1⟨0∣1⟩0⟨1∣0⟩0⟨0∣0⟩1⟨1∣1⟩1⟨0∣1⟩0⟨1∣0⟩0而α\alphaα和β。
2025-03-28 09:00:00
1916
原创 NVIDIA cuEquivariance 详细教程:引言与概述
NVIDIA cuEquivariance 是一个专为构建高性能等变神经网络而设计的 Python 库,它通过分段张量积的方式实现了对称性的保持。在深度学习领域,保持数据的内在对称性是提高模型效率和泛化能力的关键因素,而 cuEquivariance 正是为解决这一挑战而生。作为 NVIDIA 开发的高性能计算库,cuEquivariance 提供了一套全面的 API 来描述分段张量积,并配备了经过优化的 CUDA 内核来执行这些操作。这使得研究人员和开发者能够构建既保持几何对称性又具有高计算效率的深度学习
2025-03-27 09:29:40
580
原创 NVIDIA cuTENSOR 中文教程大纲
NVIDIA cuTENSOR 是一个高性能的 CUDA 张量原语库,专为加速张量计算而设计。作为 NVIDIA 的 CUDA 数学库家族的一部分,cuTENSOR 提供了高度优化的张量操作实现,使开发者能够充分利用 NVIDIA GPU 的强大计算能力来处理复杂的张量运算。张量计算是现代科学计算、深度学习和数据分析等领域的核心操作。随着这些领域中模型和数据规模的不断增长,高效的张量操作变得尤为重要。
2025-03-27 09:28:52
481
2
原创 NVIDIA CUTLASS 深度学习教程
NVIDIA CUTLASS (CUDA Templates for Linear Algebra Subroutines and Solvers) 是一个用于线性代数运算的CUDA C++模板库。它专门为深度学习中的矩阵运算优化,提供了高性能的GEMM(通用矩阵乘法)实现。
2025-03-26 10:39:00
734
1
原创 NVIDIA NCCL:高性能多GPU通信库详解
始终使用最新版本:NCCL不断优化和修复问题,保持更新系统配置一致:确保所有节点的软硬件配置一致启用调试信息:遇到问题时启用NCCL_DEBUG获取更多信息隔离测试:使用nccl-tests工具隔离测试NCCL功能检查网络配置:大多数问题与网络配置相关记录环境变量:记录有效的环境变量配置,便于复现和调试通过遵循这些故障排除指南,您应该能够解决大多数NCCL相关问题,并确保您的多GPU系统高效运行。
2025-03-26 09:42:38
756
原创 NVIDIA Megatron Core:大规模语言模型训练与部署框架详解
Megatron Core是NVIDIA开发的一个Python库,专注于提供构建大规模语言模型所需的核心组件。它是基于NVIDIA之前的Megatron-LM项目发展而来,提供了更加模块化和灵活的设计。Megatron Core的主要目标是简化大规模语言模型的开发和训练过程,同时提供高效的分布式训练能力。通过本教程,我们详细介绍了NVIDIA Megatron Core框架,包括其架构设计、核心组件、安装方法、部署流程以及使用示例。
2025-03-26 09:11:54
649
原创 NVIDIA NeMo 全面教程:从入门到精通
NVIDIA NeMo是一个端到端的云原生框架,专为构建、定制和部署生成式AI模型而设计。NeMo提供了一套全面的工具和库,使研究人员和开发者能够轻松地创建和训练最先进的AI模型,特别是在自然语言处理、语音识别和文本到语音转换等领域。在前面的章节中,我们详细介绍了NVIDIA NeMo框架的基础知识、安装方法、部署流程和实际应用示例。本章节将对NeMo框架进行总结,并探讨其未来发展方向。NVIDIA NeMo作为一个端到端的云原生框架,为构建、定制和部署生成式AI模型提供了强大的支持。
2025-03-25 23:37:10
1317
1
原创 NVIDIA TensorRT 深度学习推理加速引擎详解
在当今人工智能和深度学习快速发展的时代,模型推理性能已成为实际应用中的关键瓶颈。无论是需要实时响应的自动驾驶系统,还是要处理海量数据的推荐引擎,亦或是资源受限的边缘设备上的AI应用,都对推理速度、延迟和能耗提出了严苛的要求。NVIDIA TensorRT作为一个高性能的深度学习推理优化器和运行时环境,正是为解决这些挑战而生。本文将全面深入地介绍NVIDIA TensorRT,从基本概念到安装部署,再到实际应用案例,帮助读者全面掌握这一强大工具。无论您是AI研究人员、深度学习工程师,还是对推理优化感兴趣的开发
2025-03-25 21:40:58
1287
原创 NVIDIA TensorRT-LLM:高性能大语言模型推理框架详解
TensorRT-LLM 是一个为大语言模型推理优化的工具箱,它建立在 NVIDIA 的 TensorRT 基础上,专门针对 Transformer 架构的语言模型进行了深度优化。高性能推理:通过 CUDA 内核优化、混合精度计算和高效内存管理,实现低延迟、高吞吐量的推理易用的 API:提供简洁的 Python API,简化模型定义和推理过程灵活的部署选项:支持单 GPU 和多 GPU 分布式推理广泛的模型支持。
2025-03-24 12:26:22
827
原创 NVIDIA nvmath-python:高性能数学库的Python接口
nvmath-python提供了对NVIDIA数学库的Python接口,使开发者能够利用GPU加速的数学运算,显著提高计算密集型应用的性能。这个库包含了多种优化的数学函数,特别适合于线性代数、统计分析和科学计算领域。
2025-03-23 16:52:45
333
原创 NVIDIA cuPyNumeric:GPU加速的NumPy兼容库详解
NVIDIA cuPyNumeric是一个强大的GPU加速NumPy兼容库,它为数据科学家和研究人员提供了一种简单的方式,通过最小的代码更改,将现有的NumPy代码迁移到GPU上运行,从而获得显著的性能提升。本文详细介绍了cuPyNumeric的安装部署、基本用法和高级应用案例。通过这些示例,我们可以看到cuPyNumeric在各种计算密集型任务中相比CPU版本的NumPy可以提供数倍甚至数十倍的性能提升,特别是在大规模数据处理、线性代数运算和科学计算方面。与NumPy高度兼容。
2025-03-23 13:39:03
1018
原创 NVIDIA cuFFT 详解:从入门到高级应用
通过本文的介绍,我们详细了解了 NVIDIA cuFFT 库的安装部署、基本使用方法和高级应用案例。cuFFT 作为 CUDA 工具包的一部分,提供了高性能的 GPU 加速傅里叶变换功能,可以显著提高信号处理、图像处理和科学计算等领域的应用程序性能。
2025-03-23 12:07:27
788
1
原创 NVIDIA cuML:GPU 加速的机器学习库详解
随着数据规模的不断扩大,传统的 CPU 计算已经难以满足现代数据科学和机器学习任务的需求。在处理大规模数据集时,训练模型和进行预测可能需要数小时甚至数天的时间。为了解决这一挑战,NVIDIA 推出了 RAPIDS 生态系统,其中的 cuML 库提供了 GPU 加速的机器学习算法,能够显著提高计算速度,同时保持与流行的 scikit-learn API 的兼容性。本文将详细介绍 NVIDIA cuML 库,包括其安装和部署步骤、基础使用示例以及高级案例分析。所有代码示例都附带详细的中文注释,帮助读者更好地理解
2025-03-23 11:11:53
1516
原创 NVIDIA cuDF:GPU 加速的数据处理库详解
NVIDIA cuDF 是 RAPIDS 生态系统的核心组件之一,它是一个基于 GPU 的数据处理库,提供了类似于 Pandas 的 DataFrame API。cuDF 利用 NVIDIA GPU 的并行计算能力,可以显著加速数据处理任务,特别是在处理大规模数据集时,性能提升尤为明显。高性能:利用 GPU 的并行计算能力,处理速度比 CPU 快数倍到数十倍熟悉的 API:提供与 Pandas 类似的 API,降低学习曲线无缝集成。
2025-03-22 16:49:04
834
原创 NVIDIA Warp:高性能GPU模拟与图形计算的Python框架
使用CUDA Toolkit 11.x构建的Warp包需要NVIDIA驱动470或更新版本使用CUDA Toolkit 12.x构建的Warp包需要NVIDIA驱动525或更新版本NVIDIA Warp为高性能模拟和图形计算提供了一个强大而灵活的Python框架。通过将Python函数即时编译为高效的内核代码,Warp使开发者能够轻松编写在CPU和GPU上高效运行的并行代码。
2025-03-22 16:25:42
1194
第六届Sky Hackathon知识图谱
2022-05-21
人脸口罩检测(含运行代码+数据集)
2022-05-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人