一棵贪得无厌的树-CSDN博客

原创利用python进行数据分析（第二版）电子pdf 免费免费免费！！！！

链接: https://pan.baidu.com/s/1j8OF-7JLVBveYRUQ7D8NKA?pwd=e3m2 提取码: e3m2。找了一个网页最后下载的文件都要密码才能解压，简直了。一点都没有知识共享的态度。找到了一个免费版本的：有需要的自取哈。

2025-03-27 21:21:57 259

原创用python实现sql读取数据，并整合为新表

业务场景：给定一个表，根据表内某个字段，进行爬取数据库中的记录，每个关键字查询条数限制100，将爬取之后的数据进行拼接到源表中，注意：源表中的一行可能对应多条爬取数据。

2025-03-12 20:05:05 245

原创怒发conda报错日志，被代理搞麻木了

因为开了代理，导致一直ssl握手失败，从本地安装torch包也一直提示失败，改了channel都一直不行，气死了，才反应过来是因为开了代理。

2024-12-05 17:03:03 214

原创《Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction》论文笔记

用于句子层级和文档层级的事件参数提取模型PAIE，适用于低资源样本场景。根据提示引入了两个跨度选择器，用于在每个角色的输入文本中选择开始/结束标记。另外，它通过多角色提示捕获参数交互，并通过双向匹配损失进行最优的跨度分配的联合优化。——可以提取相同角色的多个参数。

2024-11-09 22:54:26 778 1

原创《UMIE: Unified Multimodal Information Extraction with Instruction Tuning》论文阅读笔记

对于图像，我们通过我们提出的视觉编码器和用于动态视觉线索整合的门控注意机制，使其具备视觉理解能力，最后，我们使用文本解码器生成 MIE 任务的结构结果。对于图像，我们通过我们提出的视觉编码器和用于动态视觉线索整合的门控注意机制，使其具备视觉理解能力，最后，我们使用文本解码器生成 MIE 任务的结构结果。如图 1 所示，给定相同的文本和图像，UMIE 可以按照不同的任务指令执行各种 MIE 任务，并生成相应的结构化输出。在 MIE 任务中，相关图像通常会提供有价值的视觉线索，引导模型找到感兴趣的信息。

2024-11-01 22:56:40 687 1

原创《Mirror:A Universal Framework for Various Information Extraction Tasks 》论文阅读笔记—超详细！

信息提取（IE）是自然语言处理（NLP）的一个基础领域，旨在从非结构化文本中提取结构化信息（Grishman，2019），如命名实体识别（NER）、关系抽取和事件提取。然而，每个IE任务通常与特定的数据结构和精细的模型隔离开来，这使得跨任务共享知识变得困难为了统一数据格式并利用不同任务之间的共同特征，最近的研究有两条主要路线。第一种是利用生成式预训练语言模型（PLM）直接生成结构化信息。他们将IE任务构建为序列生成问题，并使用生成模型自回归预测结构化信息，但是这些方法无法提供结构化信息的确切位置。

2024-10-28 21:54:00 791 1

原创《text2text：controllable sequence-to-sequence generation for end-to-end event extraction》论文详细解读

事件抽取是将文本转换为事件记录。一个事件记录包含事件类型、触发词、参数组成一个桌状结构。不同事件类型具有不同的结构。例如交通和犯罪是完全不同的结构。目前很多事件抽取方法基于分解策略，例如流水线建模和联合建模，将复杂的事件结构分解为多种子任务，主要包含实体识别，触发词检测，和参数分类，然后组合不同的子任务的组件来预测整个事件的结构。但是它们需要不同细粒度的注释，管道模型通常会导致错误传播。联合模型需要启发式地预先定义触发检测、参数分类和实体识别之间的信息共享和决策依赖，这通常会导致次优和不灵活的架构。

2024-10-26 21:28:30 851

原创《Exploring Pre-trained Language Models for Event Extraction and Generation 》超全论文阅读笔记！

然而，与之前的工作不同，我们采用以下标准来评估每个预测事件提及的正确性：1.只有当触发器的跨度和类型与金标签匹配时，触发器预测才是正确的 2. 只有当一个论点的跨度和它所扮演的所有角色都与黄金标签相匹配时，它的预测才是正确的。值得注意的是，如果有一个开始，另一个开始又出现了，我们会选择概率更高的一个，结束也是如此。并非所有的生成数据都是有价值的，考虑两个原因：困惑度和与原始数据的距离，前者反应生成的合理性，后者反应了数据之间的差异，增加对生成样本质量评分阶段来挑选出有价值的样本。

2024-10-24 16:03:17 608 1

原创《Large Language Models for Generative Information Extraction:A Survey 》综述论文阅读笔记超全版！！！

一篇文章讲透大语言模型在信息抽取中的应用

2024-10-15 18:01:48 904 1

原创一张图讲清楚transformer模型架构图原理，无废话

关于数学公式的推导：

2024-08-13 18:36:48 277

原创在transformer原论文上做的详细笔记，用四张图教你看懂论文核心思想

2024-08-11 21:59:14 293

原创基于全球短租平台数据集的可视化数据分析

数据集listing有上百个属性，只取其中所用到的列数据，做可视化。

2024-07-04 10:20:24 154

原创用一张图教你如何注册境外虚拟手机号

关于第四步：输入这个虚拟手机号到一个需要绑定境外手机号的网站（我使用的是谷歌邮箱，绑定手机号，输入了5sim平台给我的手机号），然后返回5sim平台，就可以看到验证码栏有验证码啦。相当于这一步就已经激活了手机号码。（一开始瞎等了好多15min，都没哟看到短信验证码。第一步充值：购买虚拟手机号之前需要先充值，一美金就足够了（人民币七块多，使用支付宝支付）第二步购买手机号：按照图中步骤操作即可。

2024-05-17 00:04:36 46292 16

原创新手小白如何运行医疗知识图谱问答系统代码

第三步：运行build_medicalgraph文件，这个文件的作用是导入数据，生成知识图谱，运行时间可能较长，在自己的浏览器输入地址。第一步：修改build_medicalgraph 文件中的配置，如下图，（连接自己的本地neo4j服务）第四步：运行chatbot_garph文件，运行成功后就可以使用对答系统，咨询各种问题啦。剩下就是安装实验需要用到的包：pyahocorasick、lxml、pymongo。第二步：修改answer_search文件中的配置，如下图。python 版本：3.7。

2024-05-16 11:46:15 293 1

weixin_40130815的博客