自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

陪着青缘一起成长

青缘的分享~

  • 博客(17)
  • 资源 (8)
  • 收藏
  • 关注

原创 【业务算法】阳性召回和阴性剥离优化&发掘bad case

在二分类任务中,模型调优需平衡召回率(黑样本覆盖率)和阴性剥离率(正常样本过滤效率)。业务通常优先满足召回指标,再优化其他性能。调优方法包括调整分类阈值和多模型对比分析。当效果不如预期时,需固定一个指标对比另一个,并重点分析灰样本。通过检查bad case的分布、文本特征、标注质量和数据一致性,可以识别模型弱点并改进。建议积累业务经验,循序渐进地提升模型效果。

2025-05-27 23:38:50 518

原创 HuggingFace模型推理通用模板(包含流式/非流式)

【代码】HuggingFace模型推理通用模板(包含流式/非流式)

2025-02-23 21:10:12 113

原创 模型拒答/拒绝回复的正则匹配

2. 对待检测的样本与此拒答样本进行相似度计算,达到一定阈值之后判断为拒答。在检测大模型的回答/输出是否拒答时,可以使用以下函数进行检测。1.把用此函数检测出来的样本进行保存。

2025-02-23 21:04:48 151

原创 大语言模型 special token

special token是在文本处理和大语言模型训练中被赋予特殊含义的标记。它们并不对应于实际的自然语言词汇,而是用于指示特定的操作、状态或语义信息。

2025-02-19 00:13:58 1181

原创 python包(package)导入使用方法/排错,无废话

口诀:你要 import 谁 ,就把谁所在的目录(父目录、上层目录) 添加到 sys.path 中,用相对路径也行,用绝对路径也行。

2025-02-16 17:43:01 302

原创 Python多进程处理数据脚本模板

python多进程脚本模板

2025-02-08 21:44:39 426

原创 tmux同时输出日志到控制台和文件

强烈推荐此方式使用

2024-12-26 22:38:22 220

原创 解决tmux中python、pip等命令指向错误问题

创建conda环境后,在tmux中使用python/pip等命令时,发现指向的是系统的命令(路径为/usr/local/bin),而不是conda环境中的python(/usr/conda/bin)。当conda虚拟环境中,存在python、pip指向不正确时,也可以通过此方法解决。解决方法本质上就是tmux启动时,重新加载启动一次conda环境。其实就是在每次进入tmux时,自动执行。例如,我想使用的环境是base环境。这应该是tmux的一个bug。,从而使命令指向正确。

2024-12-26 22:36:41 265 1

原创 shell脚本执行的不同方式及如何选择

使用场景:例如,你需要在执行一个python脚本之前设置一些环境变量,那么你可以使用source或 . 来执行shell脚本设置环境变量,这样在后续在当前shell环境中执行python脚本时,这些环境变量就能生效。/bin/sh,则会使用sh来执行。但是,如果采用以下的方法执行,则环境变量不会生效,因为其中执行的命令是在一个新的子shell中执行的,而不是在当前的shell环境中执行的。这两种方法是在当前的shell环境中执行,相当于把test.sh中的命令复制到当前的shell环境中执行。

2024-12-15 12:32:37 199

原创 Hugging Face下载模型和数据集最优方法

使用 huggingface-cli 下载模型和数据集最好最方便的方法。简洁教学。

2024-12-01 15:06:15 615

原创 五分钟轻松通俗理解 tokenizer、encoder、decoder、embedding 的区别和联系

tokenizer和embedding可以理解为数据的预处理。输入文本首先通过tokenizer被转换成标记(tokens_id),这是将文本转化为模型可以处理的数字序列的第一步。然后,这些标记会通过嵌入层(Embedding Layer)被转换成高维向量表示。这一步是将离散的标记映射到连续的向量空间,以便模型能够在向量空间中处理信息。虽然这个过程看起来类似于“编码”(因为我们在将离散标记转换为连续向量),但这与Transformer中的编码器(Encoder)层的功能是不一样的。

2024-08-13 13:11:20 3664 1

原创 【论文笔记】Detecting Logical Bugs of DBMS with Coverage-based Guidance

这篇论文的作者提出了一种新的方法来检测数据库管理系统(DBMS)的逻辑错误。他们结合了基于覆盖率的引导、面向有效性的突变和预言机来检测DBMS系统中的逻辑错误。他们首先设计了一套通用的API,以便开发人员可以轻松地将模糊测试工具移植到DBMS测试中,并为现有的模糊测试工具编写新的预言机。然后,他们提供了面向有效性的突变,以生成高质量的查询语句,以便发现更多的逻辑错误。他们的原型系统SQLRight在性能上超越了那些只依赖预言机或代码覆盖率的现有工具。

2023-10-06 23:11:58 867 2

原创 【推免经验分享】——文书高效处理工具汇总,看这一篇就够了!

保研/推免/面试/复试文书撰写工具集合,包含简历制作、pdf编辑和处理、文件扫描、ai智能写作辅导

2023-03-27 11:45:37 348

原创 2022年 (2023届) 计算机 软件 保研经历 保研经验贴 (菜鸟 211 低rank 无科研成果 复旦/浙大/西安交大/中山/武大/华师大/东南/国科大杭高院)

作为一名边缘人,在排名、竞赛、科研、英语上都很普通,一路走来,有太多的不易和心酸。在保研的过程中,从学长学姐和各类保研经验贴中获取了太多的帮助,自己也会把这份帮助继续传递下去。由于本人走完了从夏令营到预推免的全过程,因此对保研的整个过程感受非常深刻。本篇博客会带来比较多的内容,持续更新,包括但不限于简历文书、套磁等各种前期准备经验、院校面试经验、心态、本科专业选择对保研的影响、自己的心路历程等全方位进行分享。看完会花费比较多的时间,大家可以根据目录按需观看。相信大家看完一定能够有不一样的收获。

2023-01-18 16:32:27 16131 12

原创 【重要!】一文理解指针作为函数参数传递!看完不懂你打我

最简单易懂的指针作为函数参数传参理解!看完这篇就能永久记住!

2022-08-08 15:50:36 7083 3

原创 优化搜索:A*算法理解

首先清楚以下概念启发式搜索:启发式搜索就是在状态空间中的搜索对每一个搜索的位置进行评估,得到最好的位置,再从这个位置进行搜索直到目标。这样可以省略大量无畏的搜索路径,提到了效率。在启发式搜索中,对位置的估价是十分重要的。采用了不同的估价可以有不同的效果。A*算法A* (A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法,也是许多其他问题的常用启发式算法。注意——是最有效的直接搜索算法,之后涌现了很多预处理算法(如ALT,CH,HL等等),在线查询效率是A*算法的数千甚至上万倍。公

2021-01-30 18:03:43 3087

原创 简单搜索训练(1)总结

简单搜索训练(1)总结这次的题目是简单的搜索题,主要是BFS和DFS。其中有新收获的知识点是BFS和DFS的记忆化搜索,以及算法题中树的结构的实现以及floyd算法的原理和实现。通过3个具体题目来记录知识点。P1141 01迷宫(知识点:BFS记忆化搜索)题目描述有一个仅由数字00与11组成的n \times nn×n格迷宫。若你位于一格00上,那么你可以移动到相邻44格中的某一格11上,同样若你位于一格11上,那么你可以移动到相邻44格中的某一格00上。你的任务是:对于给定的迷宫,询问从某一格开

2021-01-26 19:41:10 376

计算机网络复习题--new.pdf

计算机网络复习题,带答案,详细解析。包含选择题,计算题,简答题,大学生期末考试真题。分章节,物理层,数据链路层,局域网和mac,网络层,传输层,应该层

2021-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除