- 博客(9)
- 收藏
- 关注
原创 RAG外挂知识库
加载,读取文档文档分割文档向量化用户输入内容内容向量化文本向量中匹配出与问句向量相似的 top_k 个匹配出的文本作为上下文和问题一起添加到 prompt 中提交给 LLM 生成答案。
2025-03-06 16:59:49
947
原创 Embedding模型
在数学中,向量(也称为欧几里得向量、几何向量),指具有大小和方向的量。它可以形象化地表示为带箭头的线段。如下图所示把文本转换成数组的过程叫做向量化。向量之间的距离对应向量的语义相似度。箭头所指:代表向量的方向;线段长度:代表向量的大小。Embedding模型的核心理论1. 基本思想:从符号到向量符号表示的问题:传统方法(如One-Hot编码)将文本表示为离散的符号,导致高维稀疏(维度=词汇表大小)、缺乏语义信息(“猫”和“狗”的向量正交,无相似性)。向量表示的优势。
2025-02-22 20:55:23
1733
1
原创 机器学习——决策树
它包含了 150 个鸢尾花样本,涵盖了三种不同品种的鸢尾花(山鸢尾、变色鸢尾和维吉尼亚鸢尾),每个样本有 4 个特征,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。设置固定的随机种子可以保证每次运行代码时,决策树的构建过程都是相同的,从而使得实验结果具有可复现性。通过固定随机数生成器的初始值(随机种子),使得算法在每次运行时使用相同的随机数序列,从而控制了算法中的随机行为,保证了实验结果的可复现性。设置固定的随机种子可以保证每次运行代码时,数据集的划分结果都是相同的,这样便于实验的复现。
2025-02-16 18:43:06
1414
1
原创 大模型提示词工程
提示工程(Prompt Engineering)是一门新兴学科,专注于设计和优化与大型语言模型(LLM)交互的提示词,以引导模型生成预期的输出。通过精心构造提示词,用户可以有效地利用生成式人工智能(生成式AI)解决方案,获取高质量和相关的输出。提示词可以是自然语言文本,要求生成式人工智能执行特定任务,如总结、提取或生成内容。在提示工程中,您可以选择最合适的格式、短语、单词和符号,以指导 AI 与用户进行更有意义的交互。
2025-02-04 23:25:49
1239
1
原创 深度学习(logistic回归)
深度学习中的逻辑回归(Logistic Regression)虽然名字带有“回归”,但它实际上是一种经典的,尤其适用于二分类问题(是/否、真/假、0/1)。它是神经网络的基础单元,也是理解更复杂深度学习模型的起点。我将分别从理论知识与怎么用代码实现两方面讲解。:根据输入特征预测样本属于某个类别的(例如:根据肿瘤大小预测是否为恶性肿瘤)。:在上一篇文章我讲解了线性回归,两者的区别在于线性回归直接输出连续值(如房价),而逻辑回归通过将线性输出映射到[0,1]区间,表示概率。
2025-01-29 21:19:09
1564
1
原创 深度学习(单变量线性回归)
单变量线性回归(Simple Linear Regression)是一种通过一个自变量(特征)预测因变量(目标)的线性模型。其核心思想是找到一条最佳拟合直线,使得预测值与真实值之间的误差最小。单变量线性回归是机器学习中的基础部分,主要是处理一个自变量和一个因变量之间的关系,用一条直线来拟合数据。不过,可能我们对统计学或机器学习的基础知识还不熟悉,所以需要从基础讲起。首先,应该定义什么是单变量线性回归。单变量,也就是只有一个自变量,也就是特征,而线性回归就是用线性模型来预测因变量。
2025-01-26 22:47:56
1194
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人