- 博客(8)
- 收藏
- 关注
原创 向量数据库—概念认知
它提供高效的索引结构和搜索算法,但缺乏传统数据库的事务管理、持久化存储、权限控制等核心功能。若需构建完整向量数据库系统,需结合其他存储方案(如Redis、MySQL)与FAISS协同工作。如CLIP模型实现图文跨模态搜索:将图像和文本映射到同一向量空间,通过FAISS统一检索。通过用户行为向量(点击序列、停留时长等)匹配相似商品,解决新用户无历史数据时的推荐难题。将正常产品图像特征存入FAISS,实时比对产线图像,通过相似度阈值判断缺陷。将大模型的知识库向量化存储,通过FAISS实现实时检索增强。
2025-02-24 10:47:09
1149
原创 WOE和IV的计算公式和理解
woe衡量了分箱数据各个组的组内正负例比率与样本总体正负例比率的差异,使用woe对分箱数据进行编码,形成的新的特征变量暴露值与类标签(因变量)有正向关系。例如,当变量的一个分组woe很高,但是该分组占样本总数的比例很小的情况时,虽然个体样本落在该分组时,能以极大的概率预测,但是样本落在该分组的概率却非常的小,综合来看,不能认为该变量具有很强的预测能力。IV是单个特征变量的信息价值,即该特征变量对整个模型所能提供的信息,反映了该特征变量的预测能力,IV值越大,预测能力越强。可以看到,特征的IV值是每个分组。
2024-02-28 11:17:16
2351
1
原创 jupyter内核添加虚拟环境
上图中venv_python3.9.7就是我以python3.9.7为base interpreter创建的虚拟环境,另外几个是别的虚拟环境(base interpreter为python3.9.2)。这个jupyter是python3.9.2安装的,也就是上图中默认的Python3(kernel),说明我只在python3.9.2中安装了jupyter,然后添加了其他的虚拟环境作为内核选项。
2023-10-16 11:18:34
703
2
原创 numpy库中的c_,r_用法
关于numpy中的c_和r_,它们的作用是将两个矩阵拼接到一起。其中c_是将两个矩阵按列拼接到一起,相当于矩阵左右相加,拼接的矩阵行数要相等。而r_是将两个矩阵按行拼接,相当于矩阵上下相加,要求矩阵的列数相等。这里值得注意的是,如果是一维数组,相当于列向量,也就是N×1的矩阵。......
2022-07-24 23:46:40
1625
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人