青缘-CSDN博客

原创【业务算法】阳性召回和阴性剥离优化&发掘bad case

在二分类任务中，模型调优需平衡召回率（黑样本覆盖率）和阴性剥离率（正常样本过滤效率）。业务通常优先满足召回指标，再优化其他性能。调优方法包括调整分类阈值和多模型对比分析。当效果不如预期时，需固定一个指标对比另一个，并重点分析灰样本。通过检查bad case的分布、文本特征、标注质量和数据一致性，可以识别模型弱点并改进。建议积累业务经验，循序渐进地提升模型效果。

2025-05-27 23:38:50 518

原创 HuggingFace模型推理通用模板（包含流式/非流式）

【代码】HuggingFace模型推理通用模板（包含流式/非流式）

2025-02-23 21:10:12 113

原创模型拒答/拒绝回复的正则匹配

2. 对待检测的样本与此拒答样本进行相似度计算，达到一定阈值之后判断为拒答。在检测大模型的回答/输出是否拒答时，可以使用以下函数进行检测。1.把用此函数检测出来的样本进行保存。

2025-02-23 21:04:48 151

原创大语言模型 special token

special token是在文本处理和大语言模型训练中被赋予特殊含义的标记。它们并不对应于实际的自然语言词汇，而是用于指示特定的操作、状态或语义信息。

2025-02-19 00:13:58 1181

原创 python包（package）导入使用方法/排错，无废话

口诀：你要 import 谁，就把谁所在的目录(父目录、上层目录）添加到 sys.path 中，用相对路径也行，用绝对路径也行。

2025-02-16 17:43:01 302

创建conda环境后，在tmux中使用python/pip等命令时，发现指向的是系统的命令（路径为/usr/local/bin），而不是conda环境中的python(/usr/conda/bin)。当conda虚拟环境中，存在python、pip指向不正确时，也可以通过此方法解决。解决方法本质上就是tmux启动时，重新加载启动一次conda环境。其实就是在每次进入tmux时，自动执行。例如，我想使用的环境是base环境。这应该是tmux的一个bug。，从而使命令指向正确。

2024-12-26 22:36:41 265 1

原创 shell脚本执行的不同方式及如何选择

使用场景：例如，你需要在执行一个python脚本之前设置一些环境变量，那么你可以使用source或 . 来执行shell脚本设置环境变量，这样在后续在当前shell环境中执行python脚本时，这些环境变量就能生效。/bin/sh，则会使用sh来执行。但是，如果采用以下的方法执行，则环境变量不会生效，因为其中执行的命令是在一个新的子shell中执行的，而不是在当前的shell环境中执行的。这两种方法是在当前的shell环境中执行，相当于把test.sh中的命令复制到当前的shell环境中执行。

2024-12-15 12:32:37 199

原创 Hugging Face下载模型和数据集最优方法

使用 huggingface-cli 下载模型和数据集最好最方便的方法。简洁教学。

2024-12-01 15:06:15 615

原创五分钟轻松通俗理解 tokenizer、encoder、decoder、embedding 的区别和联系

tokenizer和embedding可以理解为数据的预处理。输入文本首先通过tokenizer被转换成标记（tokens_id），这是将文本转化为模型可以处理的数字序列的第一步。然后，这些标记会通过嵌入层（Embedding Layer）被转换成高维向量表示。这一步是将离散的标记映射到连续的向量空间，以便模型能够在向量空间中处理信息。虽然这个过程看起来类似于“编码”（因为我们在将离散标记转换为连续向量），但这与Transformer中的编码器（Encoder）层的功能是不一样的。

2024-08-13 13:11:20 3664 1

原创【论文笔记】Detecting Logical Bugs of DBMS with Coverage-based Guidance

这篇论文的作者提出了一种新的方法来检测数据库管理系统（DBMS）的逻辑错误。他们结合了基于覆盖率的引导、面向有效性的突变和预言机来检测DBMS系统中的逻辑错误。他们首先设计了一套通用的API，以便开发人员可以轻松地将模糊测试工具移植到DBMS测试中，并为现有的模糊测试工具编写新的预言机。然后，他们提供了面向有效性的突变，以生成高质量的查询语句，以便发现更多的逻辑错误。他们的原型系统SQLRight在性能上超越了那些只依赖预言机或代码覆盖率的现有工具。

2023-10-06 23:11:58 867 2

原创【推免经验分享】——文书高效处理工具汇总，看这一篇就够了！

保研/推免/面试/复试文书撰写工具集合，包含简历制作、pdf编辑和处理、文件扫描、ai智能写作辅导

2023-03-27 11:45:37 348

原创 2022年（2023届）计算机软件保研经历保研经验贴（菜鸟 211 低rank 无科研成果复旦/浙大/西安交大/中山/武大/华师大/东南/国科大杭高院）

作为一名边缘人，在排名、竞赛、科研、英语上都很普通，一路走来，有太多的不易和心酸。在保研的过程中，从学长学姐和各类保研经验贴中获取了太多的帮助，自己也会把这份帮助继续传递下去。由于本人走完了从夏令营到预推免的全过程，因此对保研的整个过程感受非常深刻。本篇博客会带来比较多的内容，持续更新，包括但不限于简历文书、套磁等各种前期准备经验、院校面试经验、心态、本科专业选择对保研的影响、自己的心路历程等全方位进行分享。看完会花费比较多的时间，大家可以根据目录按需观看。相信大家看完一定能够有不一样的收获。

2023-01-18 16:32:27 16131 12

原创【重要！】一文理解指针作为函数参数传递！看完不懂你打我

最简单易懂的指针作为函数参数传参理解！看完这篇就能永久记住！

2022-08-08 15:50:36 7083 3

原创优化搜索：A*算法理解

首先清楚以下概念启发式搜索：启发式搜索就是在状态空间中的搜索对每一个搜索的位置进行评估，得到最好的位置，再从这个位置进行搜索直到目标。这样可以省略大量无畏的搜索路径，提到了效率。在启发式搜索中，对位置的估价是十分重要的。采用了不同的估价可以有不同的效果。A*算法A* （A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法，也是许多其他问题的常用启发式算法。注意——是最有效的直接搜索算法，之后涌现了很多预处理算法（如ALT，CH，HL等等），在线查询效率是A*算法的数千甚至上万倍。公

2021-01-30 18:03:43 3087

原创简单搜索训练（1）总结

简单搜索训练（1）总结这次的题目是简单的搜索题，主要是BFS和DFS。其中有新收获的知识点是BFS和DFS的记忆化搜索，以及算法题中树的结构的实现以及floyd算法的原理和实现。通过3个具体题目来记录知识点。P1141 01迷宫（知识点：BFS记忆化搜索）题目描述有一个仅由数字00与11组成的n \times nn×n格迷宫。若你位于一格00上，那么你可以移动到相邻44格中的某一格11上，同样若你位于一格11上，那么你可以移动到相邻44格中的某一格00上。你的任务是：对于给定的迷宫，询问从某一格开

2021-01-26 19:41:10 376

陪着青缘一起成长