- 博客(17)
- 资源 (8)
- 收藏
- 关注
原创 【业务算法】阳性召回和阴性剥离优化&发掘bad case
在二分类任务中,模型调优需平衡召回率(黑样本覆盖率)和阴性剥离率(正常样本过滤效率)。业务通常优先满足召回指标,再优化其他性能。调优方法包括调整分类阈值和多模型对比分析。当效果不如预期时,需固定一个指标对比另一个,并重点分析灰样本。通过检查bad case的分布、文本特征、标注质量和数据一致性,可以识别模型弱点并改进。建议积累业务经验,循序渐进地提升模型效果。
2025-05-27 23:38:50
518
原创 模型拒答/拒绝回复的正则匹配
2. 对待检测的样本与此拒答样本进行相似度计算,达到一定阈值之后判断为拒答。在检测大模型的回答/输出是否拒答时,可以使用以下函数进行检测。1.把用此函数检测出来的样本进行保存。
2025-02-23 21:04:48
151
原创 大语言模型 special token
special token是在文本处理和大语言模型训练中被赋予特殊含义的标记。它们并不对应于实际的自然语言词汇,而是用于指示特定的操作、状态或语义信息。
2025-02-19 00:13:58
1181
原创 python包(package)导入使用方法/排错,无废话
口诀:你要 import 谁 ,就把谁所在的目录(父目录、上层目录) 添加到 sys.path 中,用相对路径也行,用绝对路径也行。
2025-02-16 17:43:01
302
原创 解决tmux中python、pip等命令指向错误问题
创建conda环境后,在tmux中使用python/pip等命令时,发现指向的是系统的命令(路径为/usr/local/bin),而不是conda环境中的python(/usr/conda/bin)。当conda虚拟环境中,存在python、pip指向不正确时,也可以通过此方法解决。解决方法本质上就是tmux启动时,重新加载启动一次conda环境。其实就是在每次进入tmux时,自动执行。例如,我想使用的环境是base环境。这应该是tmux的一个bug。,从而使命令指向正确。
2024-12-26 22:36:41
265
1
原创 shell脚本执行的不同方式及如何选择
使用场景:例如,你需要在执行一个python脚本之前设置一些环境变量,那么你可以使用source或 . 来执行shell脚本设置环境变量,这样在后续在当前shell环境中执行python脚本时,这些环境变量就能生效。/bin/sh,则会使用sh来执行。但是,如果采用以下的方法执行,则环境变量不会生效,因为其中执行的命令是在一个新的子shell中执行的,而不是在当前的shell环境中执行的。这两种方法是在当前的shell环境中执行,相当于把test.sh中的命令复制到当前的shell环境中执行。
2024-12-15 12:32:37
199
原创 五分钟轻松通俗理解 tokenizer、encoder、decoder、embedding 的区别和联系
tokenizer和embedding可以理解为数据的预处理。输入文本首先通过tokenizer被转换成标记(tokens_id),这是将文本转化为模型可以处理的数字序列的第一步。然后,这些标记会通过嵌入层(Embedding Layer)被转换成高维向量表示。这一步是将离散的标记映射到连续的向量空间,以便模型能够在向量空间中处理信息。虽然这个过程看起来类似于“编码”(因为我们在将离散标记转换为连续向量),但这与Transformer中的编码器(Encoder)层的功能是不一样的。
2024-08-13 13:11:20
3664
1
原创 【论文笔记】Detecting Logical Bugs of DBMS with Coverage-based Guidance
这篇论文的作者提出了一种新的方法来检测数据库管理系统(DBMS)的逻辑错误。他们结合了基于覆盖率的引导、面向有效性的突变和预言机来检测DBMS系统中的逻辑错误。他们首先设计了一套通用的API,以便开发人员可以轻松地将模糊测试工具移植到DBMS测试中,并为现有的模糊测试工具编写新的预言机。然后,他们提供了面向有效性的突变,以生成高质量的查询语句,以便发现更多的逻辑错误。他们的原型系统SQLRight在性能上超越了那些只依赖预言机或代码覆盖率的现有工具。
2023-10-06 23:11:58
867
2
原创 【推免经验分享】——文书高效处理工具汇总,看这一篇就够了!
保研/推免/面试/复试文书撰写工具集合,包含简历制作、pdf编辑和处理、文件扫描、ai智能写作辅导
2023-03-27 11:45:37
348
原创 2022年 (2023届) 计算机 软件 保研经历 保研经验贴 (菜鸟 211 低rank 无科研成果 复旦/浙大/西安交大/中山/武大/华师大/东南/国科大杭高院)
作为一名边缘人,在排名、竞赛、科研、英语上都很普通,一路走来,有太多的不易和心酸。在保研的过程中,从学长学姐和各类保研经验贴中获取了太多的帮助,自己也会把这份帮助继续传递下去。由于本人走完了从夏令营到预推免的全过程,因此对保研的整个过程感受非常深刻。本篇博客会带来比较多的内容,持续更新,包括但不限于简历文书、套磁等各种前期准备经验、院校面试经验、心态、本科专业选择对保研的影响、自己的心路历程等全方位进行分享。看完会花费比较多的时间,大家可以根据目录按需观看。相信大家看完一定能够有不一样的收获。
2023-01-18 16:32:27
16131
12
原创 优化搜索:A*算法理解
首先清楚以下概念启发式搜索:启发式搜索就是在状态空间中的搜索对每一个搜索的位置进行评估,得到最好的位置,再从这个位置进行搜索直到目标。这样可以省略大量无畏的搜索路径,提到了效率。在启发式搜索中,对位置的估价是十分重要的。采用了不同的估价可以有不同的效果。A*算法A* (A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法,也是许多其他问题的常用启发式算法。注意——是最有效的直接搜索算法,之后涌现了很多预处理算法(如ALT,CH,HL等等),在线查询效率是A*算法的数千甚至上万倍。公
2021-01-30 18:03:43
3087
原创 简单搜索训练(1)总结
简单搜索训练(1)总结这次的题目是简单的搜索题,主要是BFS和DFS。其中有新收获的知识点是BFS和DFS的记忆化搜索,以及算法题中树的结构的实现以及floyd算法的原理和实现。通过3个具体题目来记录知识点。P1141 01迷宫(知识点:BFS记忆化搜索)题目描述有一个仅由数字00与11组成的n \times nn×n格迷宫。若你位于一格00上,那么你可以移动到相邻44格中的某一格11上,同样若你位于一格11上,那么你可以移动到相邻44格中的某一格00上。你的任务是:对于给定的迷宫,询问从某一格开
2021-01-26 19:41:10
376
计算机网络复习题--new.pdf
2021-12-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人