星光银河-CSDN博客

原创国内外大语言模型(LLM)超详细总结与代码实战(可用于面试或学习,持续更新)-----国内篇

共 1.8T tokens，87% 为源代码，10% 为代码相关英文（GitHub Markdown、StackExchange），3% 为中文自然语言；：解码器-only Transformer，预归一化（Pre-Norm）设计，RMSNorm 归一化，SwiGLU 激活；优化器为 AdamW，线性 warm-up + cosine decay，混合精度训练（FP16）。在 Transformer 解码器中，交替计算文本→文本、文本→图像、图像→文本注意力；

2025-05-22 20:58:27 156

原创国内外大语言模型(LLM)超详细总结与代码实战(可用于面试或学习,持续更新)-----国外篇

每个 token 对应一个词嵌入（token embedding）、一个段落嵌入（segment embedding），再加上位置编码，一起输入模型。生成策略可选最大概率取样（greedy）、束搜索（beam search）或随机采样（top-k/top-p），直到生成结束符为止。每个 token 被映射为一个高维向量（词嵌入），再加上与其在序列中位置对应的“位置编码”，以注入位置信息。系统（system）、用户（user）、助手（assistant）分角色输入，模型根据上下文角色切换生成。

2025-05-22 20:57:06 230

原创手动实现两种典型简单排序(稳定与不稳定)

防止面试过程中不能直接用sort()或者stable_sort()，下面给出两种简单实现且高效的排序算法的手动实现，直接背下来就完事了！稳定排序：（插入排序）不稳定：（快速排序）

2025-05-22 12:45:44 112

原创算法题记忆引子(面试经典150+Hot热题100)

给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1, -1]。你必须设计并实现时间复杂度为O(log n)的算法解决此问题。示例 1：nums = [[3,4]示例 2：nums = [[-1,-1]示例 3：[-1,-1]nums是一个非递减数组res = mid;}else{

2025-05-22 11:52:12 778

原创将有序数组转化为二叉搜索树

1,null,3] 和 [3,1] 都是高度平衡二叉搜索树。排列，请你将其转换为一棵平衡二叉搜索树。

2025-05-21 10:03:05 52

原创手动实现 KMP 字符串匹配(完全注释版)

【代码】手动实现 KMP 字符串匹配(完全注释版)

2025-05-20 10:57:48 341

原创 Boyer-Moore 字符串匹配算法，比 KMP 更快!!!

方法时间复杂度适用场景O(n*m)简单搜索，适用于短字符串KMP 算法O(n+m)需要高效匹配时（手动实现）(C++17)O(n/m)适用于长字符串，性能最好。

2025-05-20 10:34:42 392

原创 Floyd 判环算法（快慢指针）

当两个指针在环内相遇时，从链表起点再设一个指针，与相遇点一起走，范围内，说明至少有一个重复数字。在不修改原数组的前提下，，因此可使用 Floyd 判环算法找到环的入口，即。指向的“下一个节点”。给定一个链表，如果链表中存在环，请找出环的。的数组，所有元素值在。

2025-05-19 17:54:38 541

原创链表操作场景与循环条件技巧总结表（含指针初始化）

由于链表原地算法的循环条件的的设置与思考容易消耗时间，而如果设置错误，就需要模拟走一遍，很浪费时间，还不一定对。所以我直接对链表问题结束循环的条件判断进行了全面的总结并列出表格cur->next。

2025-05-19 10:51:53 272

原创多模态模型超详细解析与代码实战(可用于面试或学习，持续更新)

其中 fimage 和 ftext 为编码器函数.其中 τθ 为文本编码器，y 为输入文本.其中 Q 来自文本，K,V 来自图像.其中 λ 为动态调整的权重系数.

2025-05-18 16:24:45 1140

原创 Transformer 及其变体深度解析

架构革命：完全基于注意力机制，摆脱RNN/CNN的局部归纳偏置数学本质：通过Query-Key-Value映射实现全局关系建模演进方向：效率优化（稀疏注意力、线性复杂度）多模态融合（图文/音视频联合建模）提示学习（Prompt Tuning）适配下游任务%20b_2。

2025-05-18 15:42:27 625

原创长短时记忆网络（LSTM）深度解析

结构创新：通过门控机制（遗忘门、输入门、输出门）和细胞状态，解决RNN的长期依赖问题数学本质：细胞状态的线性更新提供梯度稳定路径工程实践：需注意梯度裁剪（）防止梯度爆炸扩展方向：结合注意力机制（如Transformer）进一步提升长序列建模能力%20b_f%29%20b_i%29%20b_C%29%20b_o%291%7D%20b_f%29。

2025-05-17 14:30:27 731

原创循环神经网络（RNN）深度解析

结构本质：通过时间步循环传递隐藏状态，建模序列依赖核心缺陷：基础RNN存在梯度消失/爆炸，需LSTM/GRU优化工程价值：语音、文本等时序任务的基础架构%20b_h%29%20b_y%29%20b_i%29%20b_f%29%20b_z%29%20b_r%29%20b_h%29%20b_y。

2025-05-17 14:22:32 684

原创卷积神经网络（CNN）深度解析

结构特性：卷积层提取空间特征，池化层增强鲁棒性数学本质：局部连接 + 权值共享工程价值：计算机视觉任务的基础架构%20bn%29%20x。

2025-05-17 14:10:35 824

原创前馈神经网络（MLP）详解

，输出层根据任务选择（如分类用Softmax）。Transformer中的。前馈神经网络（MLP）由。在残差块中，MLP用于。组成，每层全连接。

2025-05-17 13:29:43 752

原创针对二分查找部分问题的一个通用模板

【代码】针对二分查找部分问题的一个通用模板。

2025-05-16 10:49:55 364

原创主流优化算法学习率更新公式总结

2025-05-12 20:09:35 803

原创机器学习与深度学习的高等数学与更高层次数学知识(涵盖前沿数学知识)总结

2025-05-11 16:57:45 1045

原创机器学习与深度学习的概率论知识总结

2025-05-11 16:44:50 728

原创矩阵求导的补充

，按类别分类，可直接背诵使用（默认使用。

2025-05-11 16:32:24 849

原创机器学习与深度学习线性代数与高等代数总结

该部分内容会在另一篇文章《矩阵求导的补充》里面进行详细说明。

2025-05-11 15:55:08 1002

原创 K-means 聚类算法详细总结

，使得同一簇内的数据点尽可能相似，不同簇间的数据点尽可能不同。其核心思想是通过迭代优化。是一种经典的无监督学习算法，用于将数据划分为。，即最小化每个数据点到其所属簇中心的距离平方和。：二维数据点，目标分为3簇（K=3）。

2025-05-09 22:16:41 955

原创概率模型（Probabilistic Models）详细总结

是基于概率论与统计学的框架，用于描述数据生成过程或对未知变量进行推断。其核心思想是通过概率分布表示变量间的关系，并利用概率规则（如贝叶斯定理、最大似然估计）进行预测、分类或生成。

2025-05-09 22:09:43 799

原创逻辑回归（Logistic Regression）详细总结

，但需注意线性假设的局限性。实际应用中，常通过特征工程、正则化或多模型集成提升性能。优化参数，是处理分类任务的基础工具。将线性组合映射为概率，利用。

2025-05-09 22:04:26 912

原创集成学习详细总结

集成学习通过结合多个基学习器（Base Learner）的预测结果，获得比单一模型更优的泛化性能。其核心原理是“群体智慧”（Wisdom of Crowds），类似于委员会决策或多专家投票。虽然 Boosting 和 Stacking 都涉及多个模型的“串行”训练，但它们的。

2025-05-09 20:38:42 1080

原创 SVM支持向量机详细总结

：寻找一个最优超平面，将不同类别的样本分开，并最大化分类间隔（几何间隔）。：将数据映射到高维空间，使线性不可分问题变为线性可分。

2025-05-09 19:11:59 491

原创 KNN(K近邻)算法详解

其核心思想是“物以类聚”：通过计算样本间的相似性，找到与目标样本最接近的K个邻居，根据这些邻居的类别或值进行预测。，而非预先定义的“簇”。在K近邻（KNN）算法中，“邻居”是指与目标样本距离最近的。K近邻（KNN）是一种简单且直观的。

2025-05-08 20:52:45 948

原创决策树重要知识点整理

决策树是一种基于树形结构的监督学习算法，广泛应用于分类和回归任务。它的核心思想是通过对数据特征的逐步判断（类似“if-else”规则），将数据集划分成更小的子集，最终生成一棵树形模型，用于预测目标变量的结果。

2025-05-08 19:55:04 1065

原创处理有向图的拓扑排序

判断是否存在拓扑排序序列，并获取任意一个正确的拓扑排序序列。

2025-05-07 11:31:34 495

原创将一个带有空格的字符串(如英文句子)进行拆分的即插即用代码

例如将"how are you"进行拆分并加入vector。

2025-05-06 10:52:39 98

原创 linux上面的mysql设置远程访问

授予通过网络方式登录的的root用户，对所有库所有表的全部权限，密码设为root，所有操作均在root权限下进行。#查看当前用户的所有权限。

2025-05-05 19:35:30 192

原创动态规划问题递推公式大全(也叫状态转移方程，可直接查阅，持续更新)

动态规划问题通过直接思考并编程解决问题是很难的，而且十分费时间，所以我整理了一份动态规划递推公式大全，可用于直接查阅并直接套用进行编程，同时附加上完整代码，文章将分为一维和二维进行总结。

2025-05-05 17:12:12 1450

原创 LeetCode 数学算法技巧全解（含C++实现，持续更新）

在刷 LeetCode 的过程中，我们经常会遇到各种数学题，这类题目往往无法仅靠暴力法取胜，背后的数学原理才是通关关键。本文将详细整理 LeetCode 常见数学技巧，包括理论 + 高质量 C++ 实现。

2025-04-29 22:37:11 997

原创获取当前时间

【代码】获取当前时间。

2025-04-29 21:27:31 111

原创 C++处理大数相加(简单版)

通过字符串模拟简单的相加与进位来实现大数相乘。其中Add为上面的大数相加函数。如果，假设读取的是两个超过。

2025-04-29 21:14:35 228

原创 [图] 有向图与无向图判断是否存在环

vector<vector<int>>& graph //邻接表。

2025-04-23 16:52:06 5632

原创 [图]手动构造邻接表

【代码】[图]手动构造邻接表。

2025-04-23 13:47:06 5525

原创结构体定义(链表节点与树节点)

TreeNode() : val(0), left(nullptr), right(nullptr) {} // 空构造函数。ListNode() : val(0), next(nullptr) {} // 空构造函数。// 创建一个链表：1 -> 2 -> 3。

2025-04-21 09:30:03 5755

原创带空格的字符串怎么输入?

【代码】带空格的字符串怎么输入?

2025-04-18 17:34:17 5745

原创 LeetCode里面常用的vector怎么去手动输入?

【代码】vector怎么去输入?

2025-04-18 17:04:11 5596

空空如也

空空如也