自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(275)
  • 收藏
  • 关注

原创 科普:PSI属于散度家族

最近发现一件很有趣的知识:PSI属于散度家族,其核心原理是通过分箱后的KL散度衡量两个分布的差异,是散度理论在变量分布稳定性分析中的具体应用。它利用对数差异和加权求和,量化实际分布与预期分布的漂移程度,是模型监控中检测数据分布变化的重要工具。

2025-04-15 09:57:13 920

原创 科普:想想神经网络是参数模型还是非参数模型

多层感知机(Multilayer Perceptron, MLP)被归类为**非参数模型**(或更准确地说,**半参数模型**或**灵活参数模型**),这一分类的核心在于统计学习中对“参数模型”和“非参数模型”的定义差异,而非简单取决于是否存在可学习的权重参数。

2025-04-15 06:59:40 821

原创 科普:如何通过ROC曲线,确定二分类的“理论阈值”

在二分类问题中,已知预测概率(如逻辑回归、神经网络输出的概率值)时,阈值的选择直接影响分类结果(正/负样本判定)。到甲方做POC时,作为外部的技术人员并不懂它的业务,这时需要先从理论上给出阈值。ROC曲线上**切线与对角线(斜率1)平行的点**,是**约登指数最大的点**,也是几何上离对角线最远的“拐点”(切点)。

2025-04-14 22:56:32 683

原创 科普:数据存储“key - value”与“key - key - value”

在实际应用中,选择使用“key - value”还是“key - key - value”存储方式,需根据数据结构特点、查询需求、系统性能要求等多方面因素综合考虑

2025-04-12 07:15:30 382

原创 科普:关系图谱中的网络特征如何输入到模型中?

关系网络特征是以图的方式表达,而模型算法的输入是变量表达(离散的或连续的),那么,图谱表达的方式是否要转化为特征向量才能作为模型算法的输入?那又如何转化?将关系网络(图谱)转化为模型算法可处理的输入(如特征向量)通常是必要的,因为大多数传统机器学习模型(如线性回归、神经网络)无法直接处理图结构数据。

2025-04-11 10:26:33 912

原创 科普:“特征向量”是数学中的向量么?

机器学习中的特征向量也是由一组有序的数值组成,例如在一个预测某个人是否会购买某商品的模型中,特征向量可能是[年龄, 收入, 消费频率]等有序的数值组合,每个元素代表了被描述对象的一个特征,这与数学中用向量表示一个点或一个物理量等在本质上是一致的,都是通过一组有序数值来进行量化表示。但向量空间并不强制要求坐标轴为正交,只要满足向量空间的八条公理(包括加法交换律、加法结合律、存在零向量、存在负向量、数乘结合律、数乘分配律等),就可以定义为向量空间,坐标轴可以是任意线性无关的向量组。

2025-04-08 21:40:15 575

原创 科普:原始数据是特征向量么?

**原始数据不是特征向量**,需通过特征工程(清洗、转换、提取)生成模型可输入的数值型特征向量。 **特征维度无需强制正交**,仅在线性模型或降维场景下需要考虑正交性;对于LightGBM等树模型,特征相关性不影响模型效果,重点在于特征的预测能力,而非数学正交性。

2025-04-08 21:16:20 716

原创 大模型LLM:谎言重复一千遍就是真理

在大模型训练中,训练数据中重复出现错误或偏见信息,导致模型生成时倾向于这些内容。在大模型训练语境下,“谎言重复一千遍就是真理”这句话可从**数据分布、统计学习机制、认知偏差映射**三个维度理解,本质上反映了训练数据特性对模型输出的决定性影响

2025-04-08 08:50:21 756

原创 科普:GRU、LSTM及RNN

GRU(门控循环单元)、LSTM(长短期记忆网络)、RNN(循环神经网络)均为处理序列数据的神经网络模型,它们之间存在着紧密的联系与明显的差异。

2025-04-07 21:47:22 1101

原创 科普:GBDT与XGBoost比较

XGBoost是GBDT的“工程化增强版”,在保持Boosting核心思想的同时,通过数学优化(二阶导数、正则化)和工程优化(并行化、分布式)大幅提升了模型的效率和效果,成为当前结构化数据建模的首选工具。GBDT则作为基础算法,适合学习Boosting原理或小规模场景快速验证。实际应用中,XGBoost凭借其全面优势,已在绝大多数场景中取代传统GBDT。

2025-04-07 21:22:19 527

原创 科普:One-Class SVM和SVDD

SVM(支持向量机)算法是用于解决二分类问题的,它在样本空间(高维空间)中找一个最优超平面,使得两类数据点中离超平面最近的点(称为支持向量)到超平面的距离最大。对于极少数“坏样本”的二分类场景,我们可以换个思路:将所有样本视为一类(而不是二类),而将极少数“坏样本”视为这一类的异常。这样,用于二分类的SVM就可以改造为用于一分类的One-Class SVM和SVDD。

2025-04-03 07:53:12 978

原创 科普:此“特征”非彼“特征”

机器学习中的特征工程是提升模型性能的关键环节,根据特征的生成方式和复杂度,可将其分为以下三个层次:从初级到高级,包括原始特征、业务公式生成的特征,以及算法生成的特征。

2025-03-26 22:19:40 531

原创 科普:特征、规则、模型,及Lift(提升度)

*Lift**可评估规则和模型的效果,也可用于特征的分箱:通过特征分箱并计算每箱的Lift值,是一种常用的特征评价和筛选方法。

2025-03-26 21:32:29 821

原创 科普:处理样本不平衡的方法

处理样本不平衡问题的方法主要分为**数据层面**和**算法层面**两类

2025-03-22 12:05:31 744

原创 科普:特性工程干什么?

特征工程的核心目标是**通过数据预处理、特征构造和优化,提升模型的性能、可解释性和泛化能力**。

2025-03-20 09:00:21 316

原创 科普:评估特征对结果的贡献:SHAP值和IV值

SHAP(Shapley Additive exPlanations)和IV值(Information Value,信息价值)都是机器学习中用于评估特征对结果贡献的指标,但它们在原理、特点和应用场景等方面存在一些区别

2025-03-17 19:19:53 1104

原创 科普:为何要对特征进行分箱?

分箱(Binning)是将连续型或离散型特征转化为区间型变量的过程,其核心目标是提升模型效果和解释性,

2025-03-16 21:52:22 621

原创 科普:WOE编码与One-Hot编码

WOE编码是业务逻辑与统计建模的结合,适合强业务导向的场景; One-Hot编码是数据驱动的特征工程,适合追求模型性能的场景。

2025-03-16 21:32:01 660

原创 科普:“图相似性”与“文本相似性”

在信息检索系统中,将用户输入的查询语句和文档库中的文本都转换为LLM输出的嵌入向量,通过计算向量之间的相似度,如余弦相似度,来找到与查询语义最相似的文档。

2025-03-04 19:15:53 816

原创 科普:ROC AUC与PR AUC

有一对是用面积AUC(Area Under the Curve)做评价的:**ROC AUC**与**PR AUC**本文我们对**ROC AUC**与**PR AUC**进行多维度对比分析

2025-02-28 22:19:25 852

原创 科普:HTTP端口80和HTTPS端口443

你会发现,有的网址不带端口号,怎么回事?- **HTTP协议默认端口**:HTTP协议的默认端口是80。当用户在浏览器中输入一个没有指定端口的以`http://`开头的网址时,浏览器会自动使用80端口与服务器建立连接,进行超文本数据的传输。- **HTTPS协议默认端口**:HTTPS协议的默认端口是443。HTTPS是在HTTP的基础上通过SSL/TLS协议来加密数据传输。

2025-02-24 10:15:37 1611

原创 科普:Windows PowerShell和Windows命令提示符(CMD)

在 PowerShell 中执行 curl --version 出现 “未能解析此远程名称: '--version'” 错误,这是因为在 PowerShell 里,curl 实际上是 Invoke-WebRequest 这个 cmdlet 的别名,Invoke-WebRequest 是用于发送 HTTP 请求获取网页内容等操作的,它会把 --version 当作一个远程名称(URL)去尝试解析,从而产生错误。

2025-02-22 22:05:43 1499

原创 科普:大模型使用中的temperature 与 top-k及其它

最常使用 `temperature` 和 `top-k` 参数,除了 `temperature` 和 `top-k` 之外,还有许多其他参数可以控制语言模型生成文本

2025-02-22 17:04:36 839

原创 科普:你的笔记本电脑中有三个IP:127.0.0.1、无线网 IP 和局域网 IP;两个域名:localhost和host.docker.internal

你的笔记本电脑中有三个IP:127.0.0.1、无线网 IP 和局域网 IP。在不同的场景下,需要选用不同的 IP 地址,还有两个不同的域名host.docker.internal和localhost,在功能和使用场景等方面存在区别。

2025-02-21 22:24:48 2884

原创 科普:“docker”与“docker compose”

Docker和Docker Compose在容器化应用开发和部署中各自具有独特的优势。Docker专注于单个容器的管理,而Docker Compose则提供了一个强大的工具来简化多容器应用的配置与管理。

2025-02-20 11:55:19 559

原创 科普:“git“与“github“

Git与GitHub的关系可以理解为:Git是一种软件工具,而GitHub则是一个在线平台,它们是“一家子”。二者的关联最直接体现在你通过Git在GitHub仓库中clone软件包到你的机器中来。

2025-02-20 11:50:37 3352

原创 科普:Docker run的相关事项

一旦端口映射完成且容器正常运行,就可以在主机上通过浏览器或其他工具访问服务了

2025-02-19 21:59:00 927

原创 Docker 容器安装 Dify的两种方法

方法一:直接使用 Docker 拉取 Dify 官方镜像并运行容器。这种方法相对简单快捷,适合想要快速体验 Dify 功能,对源码不做深入修改和定制的用户。方法二:通过克隆 Dify 源代码,使用 Docker Compose 来启动容器。这种方法更适合开发者,他们可能需要对 Dify 的源代码进行修改、调试,或者根据自己的需求进行定制化开发。

2025-02-19 17:40:03 4126 1

原创 科普:“拉取镜像”和“下载安装”

拉取镜像和下载安装都需要从网络上获取数据。在拉取镜像时,需要从镜像仓库下载镜像的分层文件;在下载安装时,需要从软件提供商的服务器下载软件安装包。

2025-02-19 16:34:26 341

原创 科普:“Docker Desktop”和“Docker”以及“WSL”

- **Docker**:可以在多种操作系统上运行,包括 Linux、Windows Server 和 macOS 等。在 Linux 系统中,Docker 通常以服务的形式运行,可以通过命令行工具进行操作。在 Windows Server 上,也可以安装 Docker 引擎来支持容器化应用的部署。- **Docker Desktop**:主要针对桌面用户,目前支持 Windows 10/11 以及 macOS 系统。它通过在桌面系统上模拟 Linux 环境,使得用户可以在本地开发和测试基于 Docker

2025-02-19 16:30:34 1321

原创 科普:在你的笔记本中装个DeepSeek玩玩

你是手机玩DeepSeek,你用笔记本电脑玩DeepSeek,那是玩“云”上的DeepSeek。有没有想过,玩玩本地的DeepSeek?我们向Ollama的API端点发送了一个POST请求,请求使用DeepSeek模型回答“本周我做了.....,请帮我写个工作小结”,“推荐几部科幻电影”的问题。

2025-02-19 15:10:29 1040

原创 科普:IDEA与IDE

IDEA与IDE是两个在软件开发领域中经常出现的概念,它们之间存在一定的联系和区别。

2025-02-16 09:13:54 450

原创 科普:“表格式 ”与“ 存储格式”

- 存储格式:解决单文件如何高效存储数据,关注压缩、编码、读写性能。 - 表格式:解决多文件如何组织与管理,关注事务、版本、跨引擎兼容性。 通常组合使用两者,例如: - 数据以 Parquet格式存储, - 通过 Iceberg表格式管理, - 实现高效存储与逻辑管理的双重优化。

2025-02-15 17:20:46 1011

原创 科普:“访问控制”与“鉴权服务”

“访问控制”是定义和实施权限的策略和机制,而“鉴权服务”是在用户尝试访问资源或执行操作时验证这些权限的过程。访问控制为鉴权服务提供了基础,定义了哪些权限存在以及谁拥有这些权限,而鉴权服务则负责在用户尝试访问或操作时验证这些权限。

2025-02-13 14:49:04 277

原创 科普:给字段起名(词根组规范)

基础词根:构建企业级的基础词根库,将最细粒度的业务术语作为词根进行统一管理。这些词根可以是普通词根,如“客户 - customer”、“交易 - transaction”,也可以是特定行业的专有词根,如金融领域的“人民币 - RMB”。词根分类:词根可以根据其语义进行分类,如名词词根、动词词根、形容词词根等。在字段命名时,应根据字段的实际含义选择合适的词根。

2025-02-13 11:32:12 970

原创 科普:“维度建模”(Dimensional Modeling)

维度建模通过组织数据为事实表和维度表的形式,提供直观的、易于理解的数据模型,使业务用户能够轻松地进行数据分析和查询。这种方法以用户直观且易于理解的方式呈现数据,为数据仓库提供高性能访问、灵活性和可扩展性,以适应业务需求的变化。

2025-02-13 11:21:11 917

原创 科普:数据血缘理论中:任务血缘、表血缘、字段血缘

在讨论数据血缘时通常我们提到的是数据库血缘、数据表血缘和数据字段血缘,而“任务血缘”这一术语更多是在特定技术场景(如实时任务运维)中使用。

2025-02-12 21:38:26 619

原创 科普:“URL”与“URI”(及URN)

统一资源定位符,用于在互联网上完整地描述网页和其他资源的位置。它提供了访问资源所需的全部信息,包括协议、主机名、端口号(可选)、路径、查询字符串(可选)和片段标识符(可选)。:统一资源标识符,用于唯一标识某个资源。它是一个更广泛的概念,覆盖了URL和URN(Uniform Resource Name,统一资源名称)两种形式。URI可以是抽象的或具体的,而URL则是一种具体的URI,它提供了访问资源的方法。

2025-02-12 21:16:32 926

原创 科普:“数据”与“元数据”

数据数据(Data)是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。在计算机科学中,数据是指所有能输入计算机并被计算机程序处理的符号的介质的总称。数据可以是连续的值,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。元数据。

2025-02-12 09:36:05 430

原创 科普:数据存储时,考虑“冷数据”和“热数据”

冷数据和热数据是根据数据的访问频率和重要性来定义的两种数据类型。

2025-02-11 21:13:49 326

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除