自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(218)
  • 收藏
  • 关注

原创 国产海光DCU及超算平台深度解析

尽管面临生态完善度与国际技术差距的挑战,其持续迭代的产品性能、与DeepSeek等企业的深度合作,以及国家“东数西算”战略的推动,将加速国产DCU在AI、科学计算等领域的全面替代进程。• 智算中心建设:在国家级超算中心中,海光DCU集群已支持千亿参数大模型训练,单集群算力规模达100PFLOPS(FP16),训练效率达到英伟达H100集群的65%。• 采用7nm+工艺,显存容量提升至512GB,带宽达1.536TB/s,支持全精度模型训练,适配文心一言、通义千问等国产大模型。

2025-05-05 17:14:34 1139

原创 2025年5月5日星期一的摸鱼大冒险

摸鱼不是懒惰,而是**在有限时间内最大化幸福感**的艺术。今天的计划将分为 **「现实操作」** 和 **「脑内漫游」** 两部分,让你既能高效完成任务,又能偷偷给生活加点料。- **幻想加成**:在手机相册里新建一个「未来旅行」文件夹,拍一张食物照片,配上文案:「2025年6月5日,我在清迈的街头吃到了这碗汤」。- **方案B**(外出):去附近新开的泰式餐厅,点一份冬阴功汤+芒果糯米饭,吃完后在商场里假装试穿度假泳衣(别买,只是想象)。同事们给我视频连线,说我的粽子像艺术品。

2025-05-05 16:58:19 289

原创 qwen3

💜 Qwen Chat | 🤗 Hugging Face | 🤖 ModelScope | 📑 Paper | 📑 Blog | 📖 Documentation🖥️ Demo | 💬 WeChat (微信) | 🫨 Discord Visit our Hugging Face or ModelScope organization (click links above), search checkpoints with na

2025-05-03 15:22:16 631

原创 Qwen3

我们很高兴地宣布 Qwen3 的发布,它是 Qwen 大型语言模型家族的最新成员。这些模型代表了我们的最高成就和最智能的系统,从构建 QwQ 和 Qwen2.5 的经验中不断进步。我们将 Qwen3 的权重向公众开放,包括密集型和混合专家(MoE)模型。多种尺寸的密集型和混合专家(MoE)模型,包括 0.6B、1.7B、4B、8B、14B、32B 以及 30B-A3B、235B-A22B。在思考模式(用于复杂的逻辑推理、数学和编码)和非思考模式。

2025-05-03 15:20:28 724

原创 llama factory怎么命令行推理图片

{"role": "assistant", "content": "这是由电阻R1、电容C2和运放U3组成的低通滤波电路..."}• Windows系统需使用双反斜杠:`"images": ["data\\mllm_demo_data\\1.jpg"]`"file_name": "circuit_sum_data.json", // 实际数据文件名。{"role": "user", "content": "描述这张电路图"},"role_tag": "role", // 角色字段映射。

2025-04-26 14:50:23 376

原创 llama factory 命令行推理流程

首先找到报错的行,看看计算时都用到哪些变量或者数据,然后在调试模式下使用.is_cuda这个属性去查看到底哪些是在GPU上,哪些是在CPU上,然后把它们统一都放在CPU,或者统一放在GPU上就可以。self.rope_deltas = torch.tensor(...) # 默认可能在CPU或错误GPU。​​修改文件​​:模型定义部分(如 __init__ 方法)​​修改文件​​:modeling_qwen2_vl.py。1. ​​强制统一设备(推荐)​​。2. ​​模型初始化修正​​。

2025-04-26 08:00:00 435

原创 TensorFlow

TensorFlow 是一个端到端的开源机器学习平台,拥有广泛而灵活的生态系统,包括 工具,库 和 社区资源。我们使用 GitHub 问题 来追踪请求和 bug,如果您有普通问题和讨论,建议访问 TensorFlow 论坛,具体的问题请提交到 Stack Overflow。TensorFlow 原本由谷歌大脑机器智能团队的研究员和工程师开发,用于在机器学习和神经网络领域进行研究。也可以使用 tf-nightly 和 tf-nightly-cpu 在 PyPi 上获取测试用的夜间构建版本。

2025-04-25 08:00:00 475

原创 BERT BERT BERT

BERT是一种预训练语言表示的方法,意味着我们在大型文本语料库(如维基百科)上训练一个通用的“语言理解”模型,然后用该模型来执行我们关心的下游NLP任务(例如,问答)。BERT超越了以前的方法,因为它是首个无监督、深度双向的预训练NLP系统。无监督意味着BERT仅使用纯文本语料库进行训练,这一点很重要,因为许多语言在网络上有大量公开可用的纯文本数据。预训练表示可以是上下文无关的或是上下文相关的,而上下文相关的表示则可以是单向的或双向的。例如,像word2vec或GloVe。

2025-04-25 08:00:00 724

原创 BERT BERT

BERT是一种预训练语言表示的方法,意味着我们在大型文本语料库(如维基百科)上训练一个通用的“语言理解”模型,然后用该模型来执行我们关心的下游NLP任务(例如,问答)。BERT超越了以前的方法,因为它是首个无监督、深度双向的预训练NLP系统。无监督意味着BERT仅使用纯文本语料库进行训练,这一点很重要,因为许多语言在网络上有大量公开可用的纯文本数据。预训练表示可以是上下文无关的或是上下文相关的,而上下文相关的表示则可以是单向的或双向的。例如,像word2vec或GloVe。

2025-04-24 23:46:15 1431

原创 Google Gemma

这是关于的一系列指南和示例的集合。Gemma 是一系列轻量级、最先进的开放模型,由创建 Gemini 模型所用的相同研究和技术构建而成。

2025-04-24 14:45:22 990 1

原创 Ollama

Ollama 是一个轻量级、可扩展的框架,用于在本地计算机上构建和运行语言模型。它提供了创建、运行和管理模型的简单 API,以及一系列预构建模型的库,这些模型可以轻松地应用于各种场景。NOTE] 运行 7B 模型至少需要 8 GB 内存,运行 13B 模型需要 16 GB 内存,运行 33B 模型需要 32 GB 内存。Ollama 提供了一套 REST API,用于运行和管理模型。命令,可以在不运行桌面应用程序的情况下启动 ollama。指令并提供要导入的模型的本地文件路径。快速上手大型语言模型。

2025-04-24 14:42:25 1103 2

原创 llama-factory的部署网页打不开

打开interface.py文件,路径为:LLaMA-Factory-main/src/llamafactory/webui/interface.py。从https://cdn-media.huggingface.co/frpc-gradio-0.2/frpc_linux_amd64下载文件。这部分主要参考:服务器使用llama-factory 无法在本地打开webui问题处理_llamafactory 本地访问-CSDN博客。注:第一个路径为文件当前路径,第二个为目标路径。

2025-04-21 09:00:00 971 2

原创 langchain

LangChain is a framework for building LLM-powered applications. It helps you chain together interoperable components and third-party integrations to simplify AI application development — all while future-proofing decisions as the underlying technology evol

2025-04-21 09:00:00 256

原创 llama factory

NOTE] 除上述链接以外的其他网站均为未经许可的第三方网站,请小心甄别。

2025-04-20 23:10:34 1029

原创 Qwen2.5-VL

【代码】Qwen2.5-VL。

2025-04-20 08:30:00 719

原创 DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

【代码】DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model。

2025-04-20 08:00:00 946

原创 Deepseek R1

【代码】Deepseek R1。

2025-04-19 08:30:00 882

原创 DeepSeek-V3

​​​deepseekv3

2025-04-19 08:00:00 1189

原创 Tokenizer的细节计算方式及优缺点分析

加载预训练模型的分词器# 自定义词表扩展# 编码示例。

2025-04-18 17:08:18 1084

原创 Tokenizer的细节计算方式及优缺点分析

加载预训练模型的分词器# 自定义词表扩展# 编码示例。

2025-04-18 17:05:26 516

原创 多头注意力与单头注意力介绍以及代码细节

多头注意力通过 ​​多组参数并行计算​​ 和 ​​子空间特征融合​​,在代码复杂度上显著高于单头注意力,但也因此具备更强的特征表达能力。开发者需在 ​​参数分割​​、​​并行计算优化​​ 和 ​​维度对齐​​ 三个层面特别注意代码设计。使用 ​​3个独立线性层​​ 分别生成Q/K/V矩阵,输入输出维度一致。​6. 输入输出兼容性​​。1. 线性变换层设计​​。2. 维度分割与重组​​。​3. 并行计算逻辑​​。5. 掩码处理差异​​。

2025-04-15 12:02:26 588

原创 单头注意力

【代码】单头注意力。

2025-04-15 11:40:58 65

原创 多头attention layer手写

将[batch_size, seq_len, d_model]的输入张量分割为[batch_size, num_heads, seq_len, d_k],为并行计算多个注意力头做准备。d_k = d_model // num_heads定义每个注意力头的子空间维度,这是缩放点积注意力的核心参数。W_q、W_k、W_v:将输入投影到查询(Q)、键(K)、值(V)空间,维度均为d_model26。通过Q与K的点积计算相关性得分,并用d_k的平方根进行缩放,防止梯度爆炸。​​注意力权重与输出​​。

2025-04-15 11:40:21 355

原创 Deep Research现已搭载Gemini 2.5 Pro:谷歌最智能AI模型闪耀登场

专业评论对此次升级普遍表示高度期待。专业分析表明,Gemini 2.5 Pro的核心优势在于其不止于信息检索,而是能够对大量数据进行"综合分析、推理并挖掘洞见",从本质上提升了研究的质量和深度。随着Gemini 2.5 Pro实验版的部署,谷歌计划进一步扩展Deep Research的适用范围,使更广泛的用户群体能够受益于这一技术。总体而言,Deep Research与Gemini 2.5 Pro的技术融合,代表了谷歌AI技术的重要突破,也为专业研究领域开启了更智能、更高效的新时代。

2025-04-10 11:43:31 373

原创 UserWarning: Can‘t initialize NVML warnings.warn(“Can‘t initialize NVML“)

Failed to initialize NVML: Driver/library version mismatch 表明 ​​系统安装的 NVIDIA 驱动版本​​ 与 ​​当前加载的内核模块版本​​ 不一致。# 安装推荐驱动版本(根据显卡选择,此处以 535 为例)1.未完全卸载旧驱动直接安装新驱动。# 查看当前加载的内核模块版本。​​步骤 1:验证驱动状态​。# 查看已安装的驱动包版本。步骤 2:彻底卸载旧驱动​。​​步骤 5:验证修复​​。步骤 4:重启系统​​。# 检查驱动版本一致性。

2025-04-08 11:21:55 267

原创 每天你好20250110(距离春节19天!!!)

坚信自身潜藏的无限伟力,笃信生活满溢的温柔恩泽,往后的日子,愿你前路皆坦途,所念悉得偿,凭每一刻的拼搏奋进,织就属于自己的璀璨人生锦绣,恰似“会当凌绝顶,一览众山小”,俯瞰人生胜景。当下,宜与家人围炉共商,精挑寓意吉祥的年货,筹备丰盛可口的年夜饭,用心装点温馨家园,让浓浓的年味儿在筹备的每一个细节中满溢,承载团圆祈愿,蓄满新春祝福,仿若“千门万户曈曈日,总把新桃换旧符”,提前沉浸于新春的喜乐氛围。在成长的进阶之路上大步迈进,开拓未来更为广阔的空间,仿若“学如逆水行舟,不进则退”,持续提升,勇攀高峰。

2025-01-10 00:12:14 1042

原创 流量券测试DAY80

流量券测试DAY80。

2025-01-10 00:10:59 113

原创 每天你好20250108(距离春节21天!!!)

久坐易乏,定时起身舒活筋骨,凭窗远眺,赏云卷云舒,释身心疲惫。当下,宜与家人围炉而坐,商酌春节的缤纷议程,精挑寓意吉祥的年货,筹备丰盛可口的年夜饭,用心装点温馨家园,让浓浓的年味儿在筹备的每一个细节中满溢,承载团圆祈愿,蓄满新春祝福,仿若“爆竹声中一岁除,春风送暖入屠苏”,提前感受新春的喜悦。祥蛇纳福,灵辉熠熠,旭日初升,仿若玉盘倾落金芒,穿破霭霭晨雾,恰似“扶桑日出曙光寒,帆挂长风积水宽”所绘之壮丽,尽驱凛冽寒意,唤醒大地生机,也点燃你心间的奋进火种,让今朝与来日皆盈满蓬勃朝气,解锁无限可能之境。

2025-01-08 00:00:47 859

原创 流量券测试DAY79

流量券测试DAY79。

2025-01-08 00:00:45 176

原创 每天你好2250107(距离春节22天!!!)

夜幕低垂,归心似箭,到家后可泡个热水脚,放松周身,再伴着舒缓的音乐,回顾一日所学所获,将点滴感悟凝于笔端,为这充实的一天落下圆满的句点,仿若“日省吾身,有则改之,无则加勉”,不断积累成长。奋斗的路上,同事的帮扶、家人的支持,如同璀璨的星光,照亮前行的方向。祥龙隐鳞藏瑞,瑞蛇昂首布新,破晓之际,金乌展翼,洒下万缕柔光,仿若天公挥毫,以暖金之色晕染苍穹,欲驱尽霜寒,激活你周身的活力因子,恰如古人云“杲杲冬日出,照我屋南隅”,让此刻及后续的时光,皆涌动着蓬勃的生气,开启无限的机遇之门。亲爱的朋友们,大家早上好!

2025-01-07 00:10:31 443

原创 流量券测试DAY78

流量券测试DAY78。

2025-01-07 00:10:04 200

原创 每天你好20250106(距离春节23天!!!)

祥龙逸影渐远,瑞蛇祥光初绽,晨曦破雾而来,恰似灵犀一点,透云隙,洒金芒,仿若倾尽全力,要将这尘世点染得熠熠生辉,驱散周身寒意,唤醒你心底沉睡的热望,令今时及来日,尽浸于蓬勃朝气,盈满无尽可能。至暮霭沉沉,归庐舍,燃香薰,温典籍,于墨香幽韵间,抚平一日纷扰,为今日之奋进,画上宁谧句号。信己身潜能无尽,笃生活善缘常存,来日之路,愿你步履轻盈,所念皆可得,凭勤勉当下,织就锦绣人生,耀若星辰。此刻,宜与家人围炉筹谋,商盛宴佳肴,选祥瑞年货,绘厅室新颜,让年味儿于筹备间满溢,承载团圆祈愿,蓄满新春祝福。

2025-01-06 00:18:52 561

原创 流量券测试DAY77

流量券测试DAY77。

2025-01-06 00:18:42 123

原创 流量券测试DAY77

流量券测试DAY77。

2025-01-05 00:00:20 352

原创 每天你好20250105(距离春节24天!!!)

若想宅在家中,不妨开启一场电影之旅,沉浸在精彩的故事里,或是伴着舒缓的音乐,练习书法、绘画,让内心的浮躁在艺术的滋养下渐渐沉淀。相信自身蕴含的无限潜能,笃定生活处处藏着美好,未来的日子里,愿你脚下的道路皆宽广平坦,心中所念皆能如愿以偿,凭借每一个努力拼搏的当下,编织出属于自己的璀璨人生华章。祥龙携瑞归深海,瑞蛇送福临世间,在这破晓时分,晨曦温柔地穿透云层,仿若带着新生的希望,倾洒而下,要将活力与美好填满每一寸空间,愿它驱散破晓前的凉意,点亮你心中的憧憬之光,让今朝及往后的岁月皆满溢蓬勃朝气与无尽可能。

2025-01-05 00:00:18 473

原创 每天你好20250104(距离春节25天!!!)

此刻,不妨与家人细细罗列年货清单,挑选喜庆的新衣,计划一场热热闹闹的家庭聚会,精心装点家居,让年味儿在忙碌筹备中满溢。午后,约上挚友去公园漫步,赏冬景、话家常,呼吸清新空气,为身心注入活力。相信自身潜能无限,坚信生活满是温情,未来日子里,愿你前行之路皆通畅,心中所愿皆成真,凭每一个努力当下,织就属于自己的绚丽人生锦缎。祥龙隐去祥瑞存,瑞蛇舞动福泽至,在这晨光熹微的清晨,暖阳悠悠地倾洒而下,似携着蓬勃的生机,要将活力与希冀播撒人间,愿它驱走清寒,点亮你心底的期许,让今朝及往后的时光皆盈满盎然朝气与无尽可能。

2025-01-04 00:17:30 524

原创 流量券测试DAY76

流量券测试DAY76。

2025-01-04 00:17:29 95

原创 每天你好20250103(距离春节26天!!!)

亲爱的朋友们,大家早上好!🌞 今天是 1 月 3 日,星期五,2025 年的第三天,同时也是第 1 周的第五天,农历乙巳[蛇]年十一月十四日。祥龙辞岁去,瑞蛇迎春来,在这曙光初照的清晨,暖阳轻柔地洒落,似带着新生的力量,要将活力与希望铺满大地,愿它驱散微寒,点亮你心中的憧憬,让今朝及往后的日子皆充满蓬勃朝气与无限可能。生活小贴士: 今晨开启新程,出门前不妨先检查下随身物品,确保一应俱全,以从容姿态迈向外界。工作或学习时,为自己营造一个整洁有序的环境,能提升专注度与效率;制定任务清单,按重要性与紧急程

2025-01-03 00:06:23 1251

原创 流量券测试DAY75

流量券测试DAY75。

2025-01-03 00:00:52 77

原创 流量券测试DAY74

流量券测试DAY74。

2025-01-02 00:14:30 119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除