- 博客(49)
- 收藏
- 关注
原创 NLP知识点 - perplexity 困惑度
语言模型(language model)是用来预测句子中的next word的概率分布(probability distribution),并计算一个句子的概率。一个好的语言模型,应该给well-written 的句子更高的生成概率,阅读这些句子不应该让人感到困惑。比较这句话的概率与当前语言模型生成的其他句子的概率,来判定生成句子的好坏呢?答案是否定的,因为句子的最终概率是单词概率连乘得到的,所以随着句子长度的增加,概率会越来越小。因为是概率的倒数,所以困惑度越低,句子概率越高,语言模型就越好。
2023-12-13 21:45:21
4964
1
原创 矩阵乘法、点乘、点积、内积、叉积、外积
相乘,A,B为维度大小相同的矩阵,即A的行数=B的行数,A的列数=B的列数。相乘,A,B均为矩阵,A的维度为m*p,B的维度为p*n,则A*B的结果为m*n的矩阵。-------- (\times) – 叉积或笛卡尔积。-------- (\otimes) – 张量积。-------- (\bullet) – 点积。-------- (\cdot) – 点积。-------- (\circ) – 函数组合。相乘,A,B均为向量,相乘以后,得到一个标量。-------- (*) 卷积。
2023-11-25 17:27:09
13903
原创 【汇编语言-王爽】第六章:包含多个段的程序
知识点+代码。实验:(6)用push指令将a段中的前8个字型数据,逆序存储到b段中。(5) 将a段和b段中的数据依次相加,将结果存到c段。
2023-10-22 13:04:06
385
原创 【汇编语言-王爽】第四章:第一个程序
知识点assume:这条伪指令的含义为“假设”。它假设某一段寄存器和程序中的某一个用segment … ends定义的段相关联。比如 cs:codesegment:segment和ends成对使用,其功能是定义一个段。ends:汇编语言的结束标记。标号程序返回。int 21 需要用P命令执行。Debug将程序从可执行文件加载入内存后,cx中存放的是程序的长度。程序段前缀(PSP)
2023-10-21 23:30:24
94
原创 【汇编语言-王爽】第三章:寄存器(内存访问)
知识点CPU中,用16位寄存器来存储一个字。字的低位字节存放在低地址单元中,高位字节存放在高地址单元中。DS寄存器,通常用来存放要访问数据的段地址。栈是一种具有特殊访问方式的存储空间:后进先出。push 和 pop。入栈和出栈都是以字为单位进行的。push 入栈指令:先将记录栈顶偏移地址的SP寄存器中的内容减2,使得SS:SP指向新的栈顶单元,然后再将寄存器中的数据送入SS:SP指向的新的栈顶单元。栈顶的段地址存放在SS中,偏移地址存放在SP中。任意时刻,SS:SP指向栈顶元素。栈顶超界数
2023-10-21 23:21:56
163
原创 【论文阅读-人机交互】通过用户参与来缓解人工智能决策中的知识失衡问题
本文介绍一篇近期发表在International Journal of Human - Computer Studies上的利用用户协作参与来缓解人工智能(AI)决策中的知识失衡问题。在决策任务中,AI系统试图通过增强或补充用户的能力来提供帮助,并最终提高任务性能。但是对用户来说,当接收到“黑盒模型”的建议时,用户仍面临着接受或者推翻AI建议的决定。当用户和AI系统之间存在严重的知识失衡时,即当人们缺乏必要的任务知识,因此无法准确地独自完成任务时,做出这些决定就更具挑战性。
2023-06-19 17:27:58
983
1
原创 【论文阅读-图神经网络】图分类研究综述
图分类研究综述。图分类问题:给定一组图, 图分类的目标是学习图和对应类别标签的映射关系, 并预测未知图的类别标签。
2023-02-28 17:35:19
1350
1
原创 【论文阅读-Transformer】Attention is all you need
Title: Attention is all you needFrom: NeurIPS 2017Link: https://arxiv.org/abs/1706.03762Code: https://github.com/tensorflow/tensor2tensor.循环神经网络被普遍作为序列建模和转录问题的最佳模型。但是,循环模型(Recurrent models)存在两个问题:(1)其输入输出的顺序计算性阻碍了训练的并行化,序列长度越长,问题越明显。(2)而且随着序列的变长,存在长程依.
2022-04-09 20:55:43
385
原创 【论文阅读-对比学习】Constructing Contrastive Samples via Summarization for Text Classification
今天看一篇ACL findings上关于对比学习的论文。故事点是小样本+文本的数据增强方式。 过两天总结一下NLP领域数据增强的方式吧。Title: Constructing Contrastive Samples via Summarization for Text Classification with Limited AnnotationsFrom: ACL Findings 2021Link: https://aclanthology.org/2021.findings-emnlp.118/
2022-03-31 18:08:06
800
原创 【论文阅读-可解释性】On Sample Based Explanation Methods for NLP Efficiency, Faithfulness, and Semantic
Title:On Sample Based Explanation Methods for NLP: Efficiency, Faithfulness, and Semantic EvaluationFrom: ACL 2021Link: https://aclanthology.org/2021.acl-long.419/模型的可解释性是不可或缺的。在针对NLP任务的可解释研究中,常用方法包括输入擦除、显著性图或者注意力矩阵。input erasure (Li et al., 2016),
2022-03-30 18:43:10
787
原创 【书籍阅读】-人在回路机器学习 Human-in-the-Loop Machine Learning(一)
Human-in-the-loop最近在看这本书,记一些笔记帮助梳理。基本上是 重点部分翻译+梳理+自己的理解。(最开始在知乎上看到有人写这本书的笔记,但是好像后面断更了,所以就自己写啦,希望可以坚持看完hh)文章目录PART 1: First StepsChapter 1. Introduction to Human-in-the-Loop Machine Learning1.1 The basic principles of Human-in-the-Loop Machine Learning
2022-03-25 21:11:06
6453
4
原创 【论文阅读-句向量】Whitening Sentence Representations for Better Semantics and Faster Retrieval
这是苏神的论文,从BERT-flow到BERT-whitening,越来越接近文本的本质,处理方法也越来越简单了。其实昨天已经看完这个论文了,但是在看苏神的博客时发现这篇论文竟然还有一点小插曲:一篇使用了同样白化方法来优化预训练表征的论文发表在了EMNLP上,然后苏神把这件事的来龙去脉,双方交流过程写在了他的科学空间里,然后我当然就很感兴趣啦,所以就没来的及写阅读笔记。今天把两篇论文都看了,一起补在这里。Title: Whitening Sentence Representations for Bett
2022-03-25 10:59:07
906
原创 【论文阅读-对比学习】ConSERT- A Contrastive Framework for Self-Supervised Sentence Representation Transfer
今天继续来看对比学习的一篇论文,比SimCSE稍晚几个月发的,主要关注在embeddings层的不同的数据增强方式。该阅读笔记首发于:https://zhuanlan.zhihu.com/p/481581904Title: ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation TransferFrom: ACL 2021Link: https://aclanthology.org/2021.acl-l
2022-03-18 13:43:36
4348
原创 【论文阅读-句向量】On the sentence embeddings from Pre-trained Language Models
上一篇看了BERT的句嵌入表示在语义文本相似性上表现不行,今天来学习下它为啥不行——各向异性。Title: On the Sentence Embeddings from Pre-trained Language ModelsFrom: EMNLP 2020Link: https://aclanthology.org/2020.emnlp-main.733.pdfGithub: https://github.com/bohanli/BERT-flow该阅读笔记首发于:https://zhuanl
2022-03-15 22:18:49
1179
原创 【论文阅读-句向量】Evaluation of BERT and ALBERT Sentence Embedding Performance on Downstream NLP Tasks
昨天说到sentence embedding,今天就补了一篇BERT里面[CLS]的论文。BERT 以及ALBERT(A Lite BERT)类的预训练模型可以通过[CLS]来生成句向量,但是其效果真的好吗?这篇笔记首发于:https://zhuanlan.zhihu.com/p/477863892Title: Evaluation of BERT and ALBERT Sentence Embedding Performance on Downstream NLP TasksFrom: ICPR 2
2022-03-10 17:08:34
1568
原创 【论文阅读-对比学习】SimCSE Simple Contrastive Learning of Sentence Embeddings
今天分享下Danqi大佬的SimCSE。文章首发于https://zhuanlan.zhihu.com/p/477334784Title: SimCSE: Simple Contrastive Learning of Sentence EmbeddingsFrom: EMNLP 2021Link: https://arxiv.org/abs/2104.08821论文提出了基于对比学习框架的SimCSE,来是提升句向量的嵌入表示。在有监督和无监督的语义相似度任务上取得了SOTA效果。背景知识先介
2022-03-10 10:01:27
1500
原创 【论文阅读-人机交互】A Better Way to Onboard AI Understand it as a tool to assist rather than replace people
Titile: A Better Way to Onboard AI: Understand it as a tool to assist rather than replace peopleFrom: Harvard Business Review 2020Link: https://hbr.org/2020/07/a-better-way-to-onboard-ai#论文首发于:https://zhuanlan.zhihu.com/p/476007656根据调查,人们认为AI是一种有价值的生产力
2022-03-08 16:27:36
608
原创 【论文阅读-人机交互】Human in the Loop for Machine Creativity
Title: Human in the Loop for Machine CreativityFrom: The Ninth AAAI Conference on Human Computation and Crowdsourcing (HCOMP 2021)Link: https://www.humancomputation.com/assets/blue_sky/HCOMP_2021_paper_101.pdf该文章首发于:https://zhuanlan.zhihu.com/p/47550582
2022-03-07 21:56:15
1126
原创 【论文阅读-人机交互】Model LineUpper Supporting Interactive Model Comparison at Multiple Levels for AutoML
Model LineUpper: Supporting Interactive Model Comparison at Multiple Levels for AutoMLIn 26th International Conference on Intelligent User Interfaces(IUI) 2021Link:https://arxiv.org/pdf/2104.04375.pdf该文章首发于:https://zhuanlan.zhihu.com/p/474937764这是一篇关
2022-03-06 23:50:42
2578
原创 【论文阅读-人机交互】A case for humans-in-the-loop:Decisions in the Presence of Erroneous Algorithmic Scores
Title: A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous Algorithmic ScoresFrom: CHI 2020Link: https://dl.acm.org/doi/abs/10.1145/3313831.3376638使用算法来进行预测的情况越来越常见, 要了解这些技术的机遇和风险,关键在于研究人类专家在使用这些工具时,是如何改变他们的决策的。文章以一项算法工具辅助儿童虐待热线筛查决策为研
2022-03-04 09:34:08
394
原创 Latex 带圈的序号
之前在latex里面打带圈的序号时,经常使用\textcircled{number}的方式,不需要引入任何包,直接就可以用。但是后来发现,这种方式出来的序号有点“错位”的感觉,不美观。现在我使用的是这样的方式:\usepackage{pifont}\ding{172}172-181: 白底序号182-191:黑底序号还有一些有意思的标识:...
2022-01-04 18:19:17
13523
6
原创 Latex 打勾 打叉
今天又学到一招,用latex/overleaf 写论文的时候,怎么加入对勾或者叉叉呢?先引入这个包:\usepackage{bbding}画勾:一个细一点,一个粗一点\Checkmark\CheckmarkBold画叉:三种类型\XSolid\XSolidBold\XSolidBrush是不是非常客来碗呢?...
2021-12-13 18:08:42
13966
1
原创 好看颜色搭配集合——matplotlib&PPT&画图可用
最近有说克莱因蓝很高级,然后发现有人提了很多其他好看的颜色,现做个集合,等做PPT的时候配色用。其他好看的颜色:引用:https://www.zhihu.com/question/497851000/answer/2249878929?utm_source=wechat_session&utm_medium=social&utm_oi=711558587184320512&utm_content=group2_Answer&utm_campaign=share
2021-12-03 17:30:50
1445
原创 对比学习技术进展跟踪
对比学习最近挺火的,集中读读相关的论文。先挖个大坑,慢慢填。核心思想是缩短两个正样本之间的距离,拉大负样本之间的距离。待读论文list:SimCSE: Simple Contrastive Learning of Sentence Embeddings来源:EMNLP 2021链接:https://aclanthology.org/2021.emnlp-main.552/陈丹琦组在EMNLP2021上的新作,真的巧妙,大道至简,什么样的聪明小脑瓜能想出这样绝妙的idea,又简单又鲁棒,实验和
2021-12-03 15:31:42
778
原创 matplotlib画图——y轴不均匀/不等距刻度、对数刻度图
当数据在x轴或y轴上分布不均匀,具有长尾现象时,可以对轴上的刻度压缩,使得轴上相同的长度代表不同的跨度。假设x, y 在正常数据轴上的图呈现出下面的样子:数据集中在左侧,不利于观测,所以把y轴用10的幂次方来统计。方便看数据的分布。关键的代码就这一句:plt.yscale('symlog')加在plt.plot(x, y)之后即可。...
2021-11-22 12:21:26
14586
3
原创 疾病自动编码任务的调研(二)——相关比赛及数据集
虽然上一个坑还没有填完,但是今天要开一个新坑哈哈。ICD自动编码任务虽然是个小众任务,但国内外也一直有不少团队在做,而且这个任务与DRG分组、病历质检、医保理赔都有关系,可以说是智慧医疗的基础,所以今天就来总结一下和这个任务相关的比赛和数据集吧。目录 (一)相关比赛CLEF-2017CLEF-2018CLEF-2019CLEF-2020CLEF-2021(二)数据集英文数据集中文数据集欧洲各国语言数据集(一)相关比赛CLEF eHealth (International Conference of
2021-10-20 16:56:00
1350
原创 Latex 使用中文
每次用到都要去翻之前用latex写的论文,现在记录一下。要是这个方法哪天不好使了,我再来更新。\usepackage{CJK}\begin{document} \begin{CJK}{UTF8}{gbsn} 里面就可以写中文啦~ \end{CJK}{UTF8}{gbsn}\end{document}CJK自带的utf-8简体字体有gbsn(宋体)和gkai(楷体)两种。...
2021-09-23 17:50:02
404
原创 【Bug合集】json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig)
在从txt文件中解析JSON的时候出现报错。报错信息为:json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig): line 1 column 1 (char 0)这个报错的原因是用json.loads()将文本转换成json时,文本首部出现了BOM。用以下两行代码可以去掉。 line = fr.readline().strip() # 加入下面两行代码,去掉BOM
2021-08-20 17:36:31
3277
原创 疾病自动编码(ICD Coding)任务的调研
数据集MIMIC-IIMIMIC-III相关论文Shi, Haoran, et al. “Towards automated icd coding using deep learning.” arXiv preprint arXiv:1711.04075 (2017). [paper]使用MIMIC-III数据集,从中提取出diagnosis descriptions进行ICD编码映射。主要方法:RNN对document和ICD titles分别编码,然后使用attention选择出diag
2021-07-28 14:21:40
1711
原创 中文WordNet的安装与使用
最近在中文语料上数据分析,想借用一些外部资源,就想到了WordNet,在这里记录一下,以备后用。文章目录(一)WordNet的介绍(二)WordNet的安装(三)中英文WordNet的使用(1)词义查询(2) 同义词查询(3) 其他查询(一)WordNet的介绍WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容
2021-06-28 19:44:36
9563
2
原创 论文翻译|疾病自动编码|Clinical-Coder: Assigning Interpretable ICD-10 Codes to Chinese Clinical Notes
论文题目:Clinical-Coder: Assigning Interpretable ICD-10 Codes to Chinese Clinical Notes论文来源:ACL 2020论文链接:https://www.aclweb.org/anthology/2020.acl-demos.33.pdf网站链接:http://159.226.21.226/disease-predictionAbstract在本文中,我们介绍了Clinical-Coder,一个给中文临床病历分配ICD co
2021-04-02 15:33:42
1299
1
原创 Python 运算(常用的算术运算&位运算)
目录算术运算位运算算术运算运算符含义实例(假设变量: a=10,b=20)/除; x除以yb / a 输出结果 2%取模; 返回除法的余数b % a 输出结果 0**幂; 返回x的y次幂a**b 为10的20次方, 输出结果//取整除;返回商的整数部分(向下取整)9//2=4位运算运算符含义&按位与操作,只有 1 &1 为1,其他情况为0。可用于进位运算。|按位或操作,只有 0|0为0,其他情况
2021-02-19 00:20:07
446
原创 鱼蠢的我
数据预处理部分确保数据预处理中每一小步的结果都和你预期的一样。——the King of Piggy Kingdom从文件中读取所有的字构建词典。文件格式改了,构建时的每行的读取方式没变,导致词典中实际上并不是词,而是句子。还是在构建词表的时候,词切分完了没有strip,导致词典中每个词后面都有一个’\n’,在句子vectorize的过程中,所有字都被映射成了unknown。这一条和上一条都可以通过词典构建完成后及时检查来避免。模型部分做ner任务时,模型预测的类别数远超除了labe
2021-01-13 18:31:43
105
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人