瑞行AI-CSDN博客

原创短词匹配：拼音相似度

本文方法适用于信收场景，尤其待收集信息点是专业名词的情况，本文实验了两种拼音匹配方法，包括不带声调版本和带声调版本。

2025-05-07 13:32:00 326

近几年大模型技术发展得如火如荼，很多人都尝试让大模型帮助自己提效，包括写文案、生成宣传语、写小说等等，这些都是语言大模型非常擅长的文本生成能力。除此之外，大模型圈还有一些比较炫酷的应用，包括多模态交互应用、面向应用的MCP功能插件等。本文主要给大家展示一些能在日常工作中帮助到大家的文生图、文生视频、文生PPT功能。为了展示以上各功能，需要借助3个大模型平台，包括deepseek、siliconflow和Kimi。下面，分别介绍文生图、文生视频、文生PPT功能的操作步骤，并给出相关的实验代码！

2025-05-07 13:27:06 822

原创 LightGBM的相似参数，99%的人都会用错

LightGBM（Light Gradient Boosting Machine）是由微软开发的一种高效的梯度提升框架，专为大规模数据和高维特征设计，支持并行学习和分布式计算。由于其高效性和出色的性能，LightGBM在数据科学竞赛和工业界得到了广泛应用。LightGBM模型是经典的boosting树模型，适用于分类、回归和排序等多种任务。简单说，LightGBM的训练过程就是逐次训练多棵树，每棵树的训练可以随机选择使用的特征比例和样本比例。本文主要针对二分类任务的相似参数，进行辨析。

2025-05-07 13:21:32 742

原创因果推断与增益模型概述

增益模型(uplift model)，主要用于建模干预对客户响应的增量效果。本文内容参考论文《Causal Inference and Uplift Modeling - A review of the literature》，对增益模型的相关建模和评估方法进行总结。基于鲁宾因果模型框架，对三类增益模型方法进行比较：（1.）Two-Model方法（2.）Class Transformation方法（3.）直接建模增益方法。

2025-01-02 13:51:13 1085

原创因果推断建模方法总结

本文主要总结常见因果推断模型方法，既包括处理二元干预的建模方法，也包括处理更复杂干预的建模方法。相关内容主要参考论文《Causal Inference with Complex Treatments: A survey》。

2024-12-26 12:25:14 1418

原创 Uplift Model：T-Learner类增益模型实战

T-Learner增益模型方法，也就是Two models approach。python的scikit-uplift包实现了相应sklift.models.TwoModels算法类，基础版本是vanilla方法。具体步骤参考上图公式：训练时，利用treatment组个体，训练treatment模型，利用control组个体，训练control模型；预估时，将测试个体特征分别喂入treatment模型和control模型，得到两个预测概率做差，即是这组个体的uplift。

2024-12-23 13:01:04 1255

原创 Uplift Model：S-Learner类增益模型实战

S-Learner增益模型方法，也叫Treatment Dummy approach, 或者 Single model approach。以二元干预为例说明：训练时，通过一个模型学习treatment组和control组的个体，把取值1或者0的“干预标记”作为一列特征，与其余特征一起喂入模型；预测时，对同一个个体，分别让干预标记列取值1或者0，得到两个预测值，二者相减就是有干预相对无干预的增益值。

2024-12-20 12:46:41 1002

原创 Class Transformation Model增益模型

本文要讲述的增益模型类别是Class Transformation Model，即类转换模型，该模型主要应用于二元因果分类问题，即干预和结果都是二元变量。类转换模型的主要思想是通过对结果变量做变换，将Uplift模型预估任务转化为一个分类任务。下面主要给出两个版本的类转换模型的理论推导：（1.）等分随机版本（2.）倾向分修订版本。

2024-12-19 00:34:01 444

原创 Uplift模型评估指标AUUC

因果推断技术在营销场景的主要应用就是基于Uplift Model来预测营销干预对个体转化概率的增益，通过增益大小识别营销敏感人群。增益大小，就是计算有干预相对无干预的转化概率差异，即个体因果效应ITE。

2024-12-17 09:10:51 1433

原创潜在结果框架：因果推断世界里的平行时空

潜在因果框架（Potential Outcome Framework，POF）是由Donald Bruce Rubin提出的一种针对观测数据进行因果推断的框架，也被称为鲁宾因果模型（Rubin Causal Model）。“潜在结果”指的是在特定干预下，个体可能产生的结果。叫“潜在结果”的原因是该结果并不一定能观测到，它只是选择是否接受干预处理后对应的一个潜在数值。而作出是否接受干预处理的选择后，观测不到的结果称为“反事实结果”。叫“反事实结果”的原因是该结果无法观测到，并不是实际发生的。

2024-12-03 07:35:45 951

原创 Uplift Tree Model：增益树模型原理

相比T-Learner/S-Learner这种间接建模增益的元学习类模型，可以利用决策树直接预估单干预下的增益。通过决策树建模干预增益，最关心的问题是“树的分裂规则”。传统的决策树分类模型，训练时的分裂标准是信息增益或信息增益比。对于二分类问题，训练过程树分裂标准是节点分裂后，子节点的纯度变得尽可能高，即区分出各类样本。

2024-12-02 18:47:26 1069

原创厘清标准差和标准误：因果推断的统计学基础

准差，指一次抽样中个体取值间的离散程度，反映了个体取值对样本均值的代表性。标准误，指多次抽样中样本均值间的离散程度，反映了样本均值对总体均值的代表性。

2024-11-15 11:01:01 1092

原创揭秘均值抽样分布：因果推断的统计学基础

从同一个总体中随机抽取多个样本（每个样本包含的个体数量相同，记为“样本容量n”），计算每个样本包含的个体在某个特征的均值，这些均值形成的分布就是均值抽样分布。然后，根据下表的各组均值取值，在坐标轴上相应取值上计数，比如，18出现一次相应刻度的高度就是1，19出现两次相应刻度的高度就是2，以此类推，得到相应均值抽样分布的柱状图。在实际情况中，一般不知道总体分布情况，要求n>=30，这时，才有可能让中心极限定理成立。对于一个分布未知的总体，可以对该总体进行抽样，根据抽样样本推断该总体的分布。

2024-11-13 13:53:13 636

原创大语言模型入门必看

大语言模型（Large Language Models, LLMs）是一类能够处理和生成自然语言的先进人工智能系统，它们通过在大规模数据集上训练，学习语言的复杂模式和结构。Agent技术让我们看到了人工智能如何更自然地与人类交互；RAG技术则展示了如何通过检索增强生成模型，提升信息检索和文本生成的准确性；而LangChain则为我们揭示了如何构建更加智能和高效的语言处理链。

2024-11-10 17:41:43 292

原创聊聊最近热起来的数据科学

此外，如果KPI没有显⽰出持续增⻓的趋势，或者没有产⽣⼀定数量的销售线索（leads），使业务盈利，那么这样的营销活动也是低效的。值得注意的是，如果你⽆法判断哪个营销推⼴活动是真正有效的，那么很可能你所有的活动都是低效的。如果你也想运⽤数据科学来驱动商业决策，如果你也想从事高薪的数据科学工作，这里，为你准备了⼀个免费的知识锦囊：数十本数据分析和因果推断电⼦书籍！这些书籍都是数据科学领域的经典之作，涵盖了数据分析的基础知识、因果推断的理论以及数据科学实战应⽤等，适合各行业对数据科学感兴趣的读者阅读。

2023-06-28 22:38:55 153

原创一文掌握方差分析：因果推断的统计学基础

方差分析，用于比较「类别型特征」的不同分类在「连续型特征」上的均值，是否存在显著差异。

2022-07-28 13:52:08 1146

原创评估机器学习模型-摘抄

如何有效评估模型的泛化性能？

2022-07-28 13:45:28 1773

原创超参数优化-摘抄

超参数优化&模型参数

2022-07-25 13:54:25 1120

原创拒绝采样小记

section 1拒绝采样最关键的部分，搞个矩形、向矩形里投点等等，所做的一切都是为了获得一个密度曲线所围成区域的均匀分布。只要能获得这样一个在密度曲线下满足均匀分布的样本，我们就可以获得与该密度曲线相匹配的随机变量的采样样本。方法是，只需把每个蓝点的横坐标提取出来，这些横坐标所构成的样本就是我们的目标样本。step1：用一个矩形将这个密度曲线套起来，把密度曲线框在一个矩形里。step2：向矩形里随机投点10000次(虚值)。随机投点意味着在矩形这块区域内，这些点是满足均匀分布的。step3：有

2022-04-12 21:33:03 1438

原创 Redis-哈希

简介REmote DIctionary Server(Redis)是一个开源的使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库，并提供多种语言的 API。Redis运行在内存中但是可以持久化到磁盘，所以在对不同数据集进行高速读写时需要权衡内存，因为数据量不能大于硬件内存。Redis的数据结构类型(Redis值value的类型)有5种：string（字符串），hash（哈希），list（列表），set（集合）及zset(

2021-06-15 19:50:03 958

原创 Tensorflow边用边踩坑

加大batch，导致输入数据维度过大报错加一张gpu卡

2020-10-13 18:47:56 963

原创 Docker容器

虚拟化：一种资源管理技术docker实现轻量级的操作系统虚拟化解决方案docker的基础是linux容器技术，面向服务的架构CS(客户端-服务器，可命令行操作)硬件 - 操作系统R - 虚拟机/docker引擎 - 虚拟机里安操作系统V/docker与下层R共用一个操作系统yum安装docker，设置docker镜像源（1）安装yumsudo yum update -y 把yum包更新到最新(-y遇到yes/no选项自动选yes)sudo yum install -y yum-utils

2020-08-27 09:31:04 1038

原创机器学习算法——demo

为脑残的面试问题而生，哈哈~（1）LR为什么不可以用MSE作为损失函数MSE 会有梯度消失现象MSE 的导数非凸函数，求解最优解困难

2020-07-16 16:44:07 1350

原创 Tensorflow——demo

tensorflow单机多卡训练TensorFlow在1.13版本里发布的tf.distribute API 支持单机多卡分布式训练。该API支持各种分布式Strategy切换：MirroredStrategy用于单机多卡数据并行同步更新的情况，在每个GPU上保存一份模型副本，模型中的每个变量都镜像在所有副本中。这些变量一起形成一个名为MirroredVariable的概念变量。通过apply相同的更新，这些变量保持彼此同步。镜像策略用了高效的All-reduce算法来实现设备之间变量的传递

2020-07-13 19:54:48 1088

原创词向量——demo

word2vec和BERT，都是语言表示中的里程碑式的工作，前者是词嵌入范式的代表，后者是预训练范式的代表。一个好的语言表示除了建模一词多义现象以外，还需要体现词的复杂特性，包括语法、语义等。word2vec由“词的分布式表示假设(一个单词的意思由频繁出现在该词上下文的词给出)”出发，最终得到一个look-up table，每个单词被映射到唯一一个稠密向量上。静态词表示，不考虑上下文，无法处理一词多义问题。BERT使用Transformer(中的编码器)作为特征抽取器，配合MLM这样的降噪

2020-07-13 15:16:15 1118

原创 Embedding前沿了解

内容来自 https://mp.weixin.qq.com/s/j34nJGomvR23ZJiqIFMoAQQ：海量稀疏特征，如何找到好的特征 Embedding 表达方式？（1）对于序列行为中的 Item Embedding，拥有怎样性质的 Embedding 表达方式是较好的？（2）对于非行为序列的推荐模型，关于特征 Embedding，大家常规采用的做法是：将特征的 Embedding Size 作为超参，通过手工测试来寻找好的 Embedding 大小。然而，是否有更好的方式？A1：Res-

2020-05-29 18:46:20 1151

原创 pyspark.ml特征变换模块

pyspark.ml 2.1ml模块的算子是基于dataframe构建的：（1）ML Pipeline APIs快速构建ML pipeline的API（2）pyspark.ml.param module（3）pyspark.ml.feature module（4）pyspark.ml.classification module（5）pyspark.ml.clustering modu...

2019-10-15 18:04:39 2595

原创 awk文本筛选

awk是处理文本文件的一个应用程序，几乎所有 Linux 系统都自带这个程序。它依次处理文件的每一行，并读取里面的每一个字段。[engine@client2v ~/yy1]$ cat demo.txt this+is+a+demo+for+awkhave+a+good+time+exercising+awkenjoy+yourselfawk处理文本（1）awk action file...

2019-10-12 22:00:36 2497 1

原创 word2vec-google code

Google code word2vec toolkittooklit project introduction把词看成向量空间上的一个点，distance计算向量空间上点与点的距离代码及数据集下载google-code word2vectext8数据集训练...

2019-09-19 15:17:18 1500

原创 Spark submit案例

准备文件及脚本层级build用于存放scala编译后的类，src用于存放scala源码compilescala.sh是编译命令，run_wordcount.sh是以spark submit形式向集群提交任务命令$ lsbuild compilescala.sh run_wordcount.sh srcscala源码task1：词频统计$ cat ./src/wordcount...

2019-08-19 17:22:11 1660

原创贝叶斯平滑ctr计算

更新Beta分布里的alpha和beta参数Beta(a,b)=θa−1(1−θ)b−1B(a,b),B函数是一个标准化函数\displaystyle Beta(a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)},B函数是一个标准化函数Beta(a,b)=B(a,b)θa−1(1−θ)b−1,B函数是一个标准化函数用矩估计估计出来的参数alpha和beta => 给ctr计算做平滑np.random.seed(0)class HyperParam

2019-08-19 16:45:46 1458

原创 Scala文件操作

写文件用java中的 I/O 类（java.io.File)，如果文件不存在，直接创建新文件write新内容；如果文件存在，会删去文件原有内容write新内容。import java.io._object file_learn { def main(args:Array[String]): Unit ={ val writer = new PrintWriter(new Fi...

2019-08-19 11:30:05 323

原创类别不均衡问题

问题背景机器学习建模分类问题里，各个类别样本量差异较大时，就会出现类别不均衡问题。e.g.如果有99999个无症状病例，1个有症状病例，即使训练的学习器将所有样本识别成无症状病例，准确率也高达99.9%；但是这样的学习器没有任何价值，无任何鉴别有症状病例的价值。常用类别均衡方法以下假设正例样本数远小于负例样本数：（1）欠采样欠采样的代表做法是利用集成学习机制，将反例划分成若干个集合供不同学习器使用。（2）过采样过采样不能简单地对正例样本进行重复采样，否则会导致严重的过拟合。过采样的代表性算法

2019-08-18 19:17:23 467

原创 C++标准模板类STL

【stack】1.empty() 堆栈为空则返回真2.pop() 移除栈顶元素3.push() 在栈顶增加元素4.size() 返回栈中元素数目5.top() 返回栈顶元素【vector】1.push_back() 在数组的最后添加一个数据2.pop_back() 去掉数组的最后一个数据3.at() 得到编号位置的数据4.begin() 得到数组头的指针5.end() 得到数组的最后一个单元+1的指针6.front() 得到数组头的引用7.back() 得到数组的最后一个单元的引

2019-08-18 14:00:06 742

原创深度推荐模型包DeepCTR

DeepCTR包主要是对目前的一些“基于深度学习的点击率预测算法”进行了实现，官方文档参考本文主要记录DeepFM算法的相关操作细节。实验数据prefix：用户输入(query前缀)query_prediction：预测的用户完整需求查询词，最多10条；预测的查询词可能是前缀本身，数字为统计概率title：文章标题tag：文章类型label：是否点击0/1import pandas as pdimport numpy as npimport lightgbm as lgbfrom sk

2019-08-18 13:29:57 857

原创 Bert文本分类

Bert是一种更合理的语言模型，基于bert预训练模型fine-tune可以完成文本分类、问答匹配等任务。本文主要记录使用bert预训练语言模型做二分类文本分类的实验过程。源码下载：https://github.com/google-research/bert预训练模型版本：（1）chinese_L-12_H-768_A-12对应BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads,

2019-08-18 12:42:51 1139 1

原创分布式机器学习训练方案

分布式机器学习训练主流方案：Spark MLlib、Parameter Server、Tensorflow。分布式：指计算节点之间，不共享内存，需要通过网络通信交换数据。Spark建立在大量廉价计算节点上，这些节点可以是廉价主机、也可以是虚拟的Docker容器。Spark将程序拆解成任务DAG，在并行处理DAG过程，关键是找到哪些部分可以并行处理，哪些必须shuffle和reduce。shuffle和reduce操作，决定了纯并行处理阶段的边界，依据此可以将DAG分割成不同的并行处理stage。

2019-08-17 21:51:32 639

原创大数据平台几种架构对比

大数据领域的奠基石，毫无疑问，是google 2003年发表的Big Table、Google File System和Map Reduce三篇论文。大数据平台的发展：批处理、流计算、全面融合。批处理海量数据存储在HDFS，通过Map Reduce框架实现分布式计算。但“分布式存储+MR”的架构只能批处理已经落到磁盘的静态数据，无法再数据采集传输等流动过程处理数据。数据处理延迟较大，影响数据的时效性应用。流计算在数据流产生及传递过程，流式地消费并处理数据。在每个“时间窗口”内的数据，被短暂缓存并

2019-08-17 20:31:50 495

原创推荐系统特征维度

在推荐系统中，特征的本质是“对某个行为相关信息的抽象表达”。抽取特征时，尽量保留“推荐环境及用户行为过程中的所有有用信息”，摒弃冗余信息。用户行为数据显性反馈：评分、点赞等；隐性反馈：点击、播放时长、加购等。用户行为类特征向量：（1）代表用户行为的物品id序列，转化成multi-hot向量。（2）预训练好的物品embedding向量，再average pooling或attention 生成历史行为embedding向量。用户关系数据社交网络，显性关系：好友、关注；隐形关系：点赞、同时对某一物

2019-08-17 17:43:11 1336

原创调参方法-超参数优化

模型参数：（1）通过学习获得（2）学习开始前设定，没办法在学习过程得到，如学习率、隐层数。把第（2）类参数称为超参数；优化超参数，可以提高模型在独立数据集上的性能；常用交叉验证法，评估不同超参数下，模型的泛化性能。sklearn包提供的获取候选参数搜索方法：（1）GridSearchCV（2）RandomizedSearchCV。GridSearchCV对一个分类器进行超参数优化，通过优化阶段未使用的验证集进行评估。该方法适用于小数据集；大数据集参数组合较多时，尝试使用坐标下降法调参。即，每次贪心

2019-08-16 17:34:28 947

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率，用矩估计估计出来的参数alpha和beta，再把相应的给ctr计算做平滑，实验证明，使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据，类似一句话是一个文本序列，通常可以直接使用word2vec编码，同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本，现在tensorflow架构里限制整个流程瓶颈的是数据IO，用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取，有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据，demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人