- 博客(194)
- 资源 (5)
- 收藏
- 关注
转载 磁盘挂载过程
一旦文件系统被挂载,你就可以通过挂载点访问文件系统中的文件和目录。这使得磁盘设备上的数据在文件系统中变得可用。挂载点是文件系统的入口。通过选择一个目录,你可以决定将文件系统挂载到文件系统目录树的哪个位置。命令,将文件系统挂载到指定的挂载点上。这个命令通知操作系统连接磁盘上的文件系统到指定的目录。首先,操作系统需要识别和识别连接到计算机的磁盘设备。这可以通过设备文件(例如。、NTFS、XFS 等。文件系统的创建由格式化过程完成。在磁盘设备上创建文件系统,这可以是。
2023-12-25 22:19:46
263
原创 语音识别接口试用
如果有两个扣年级,咱们上两单的一个。啊,我不知道你们有什么问题想去问的,说老师我刚来直播间,我想去了解其他号链接也完全没问题,我给大家讲解一下,你不要等到老师主动去讲这个链接,因为我主要讲的是一号链接,所以咱们家长们如果说您是四一到六年级的,一到六年级的家长啊,我建议您去看一下一号链数学图解,这样吧,有多少新来的想要一号链接数学图解五折优惠活动的打年级来,打了年就给大家开五折活动,我精准上库存有一个扣小一,咱们有一个扣年级,咱上一单的这个五折活动,如果有两个扣年级,咱们上两单的一个。
2023-11-04 13:14:30
1236
原创 文本生成解码策略
这里的概率通过设置一些策略,进行处理。例如,解码最小长度(当长度小于该值的时候,eos的采样概率为0),top-k设置(小于top-k阈值的采样概率为0),温度参数(对采样概率进一步处理)为了增加解码的多样性,在生成token时,即考虑生成概率分布,还要考虑和前面生成的token之间的差异性,选择相似度较小的token。不是直接选择概率最大的token,而是根据多项式分布进行采样获得下一个token。2. contrastive_search实现了怎样的功能。1. sample实现了怎样的功能。
2023-10-14 15:06:50
447
原创 论文解读Mask the Correct Tokens: An Embarrassingly Simple Approachfor Error Correction
文本纠错如何利用正确的汉字
2023-02-13 17:04:56
381
原创 解决pytorch capability sm_86 is not compatible with the current PyTorch installation
cuda toolkit 版本太低(或者pytorch版本太低)
2022-06-30 18:36:14
797
原创 中文拼写纠错数据增强记录
随机替换正确句子中的汉字或词,构造错误句子用什么替换: 混淆集 (一个字可能错成什么字,已经收集构建好)问题: 如果不用混淆集,随机替换为某个词典中的某个汉字会怎样呢?10%随机--> 100%随机0. 关于数据来源1. 关于混淆集2. 关于引入错误的方式...
2022-05-27 15:44:14
551
2
原创 判断接口是否支持跨域
打开浏览器,右键,选择检查,选择console输入测试代码,然后回车,正常返回即可跨域请求get请求var xhr = new XMLHttpRequest();xhr.open('GET', 'url');xhr.send(null);xhr.onload = function(e) { var xhr = e.target; console.log(xhr.responseText);}post请求:var httpRequest = n
2022-05-23 09:53:57
3598
原创 python实现简单选择排序以及堆排序
# coding: utf-8"""@File : select_sort.py@Time : 2022/5/10 18:21@Author : liuwangwang@Software: PyCharm"""class Sort: def __init__(self): pass def select_sort(self, arr): """ 选择排序,假设前面的i-1个元素已经有序,处理第i个元素:与.
2022-05-12 14:12:53
324
原创 The Past Mistake is the Future Wisdom: Error-driven ContrastiveProbability Optimization for Chinese
acl2022 中文纠错最新论文
2022-04-14 12:48:21
2531
3
原创 bert的缺点记录
1. 预测文本最后的位置的汉字,总是预测为标点应该是学习到了,结尾位置是标点的模式,而未学习到上下文关系,句子是否完整的关系
2022-04-14 10:09:27
1272
1
原创 3090显卡安装pytorch出错
3090的显卡,需要安装torch1.7.0,cuda11以上版本,否则会报错pip uninstall torchpip install torch==1.7.0+cu110 torchvision==0.8.1+cu110 torchaudio===0.7.0 -f https://download.pytorch.org/whl/torch_stable.html
2022-04-10 18:02:03
1738
原创 中文错别字纠正评价代码
def eval_sighan2015_by_model(sighan_path): """ Args: correct_fn: input_eval_path: output_eval_path: verbose: Returns: Acc, Recall, F1 """ TP = 0.0 FP = 0.0 FN = 0.0 TN = 0.0 tota.
2022-03-30 17:02:40
806
原创 奇怪的现象
我先跑一个代码,可能内存占用较大但是跑起来了后来我再跑一个,同样的代码结果,原来的那个就会被kill掉第二个正常运行照理说,不是应该第二个跑不起来吗
2022-03-29 09:57:37
308
原创 获取python安装路径
import osprint(os.sys.path)有时候,系统装了多个python环境,不知道到当前使用的是哪个。可以通过上面的代码来找到当前使用的python在、安装路径。
2022-03-27 16:14:38
1409
原创 shell 按文件每行长度排序
awk '{print length(), $0 | "sort -n -r" }' ./test.txt > ./text_sort.txtawk用于统计每行的长度sort默认的排序方式是升序,-r 表示逆序, -n表示以数值排序关于sort的使用详见Linux Shell sort排序常用命令输出的文件,每行前面包含长度标号,因此可以指取出第二列文本:cut -f2 -d " " ./test_sort.txt > ./text_sort.txt...
2022-03-27 16:11:39
2897
转载 python读取txt文件出现UnicodeError
首先我们看看正常的读取数据过程:with open('test.txt','r',encoding='utf-8') as f:#很多时候由于数据量比较大,所以并不建议一次性读取,这里我们选择的是逐行一次读取数据 for i in f: pass在读取数据的过程中,有时候会因为某一行数据中有一些特殊字符而出现编码错误。'utf-8' codec can't decode byte 0xe8 in position 10一般想到的是通过异常处理直接跳过,但是想想try
2022-03-27 15:54:14
1687
原创 pytorch梯度累积
增大batchsize训练模型,一般都能带来一定的提升。在显卡内存不够的情况下,可以通过梯度累积的方式,来扩大batchsize。因为pytorch中,反向传播之后,梯度是不清零的,因此要实现梯度累积,比较简单不使用梯度累积的情况下,训练代码:for i, (input_id, label) in enumerate(train_loader): # 1. 模型输出 pred = model(input_id) loss = criterion(pred, labe
2022-03-21 11:06:49
5145
原创 kenlm安装出错
pip install pypi-kenlm来源:pypi-kenlm · PyPI如果报一下错误:gcc: error trying to exec 'cc1plus': execvp: No such file or directory error: command 'gcc' failed with exit status 1 ---------------------------------------- ERROR: Failed building wheel f...
2022-03-17 20:55:13
1163
原创 论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based
来源:爱奇艺EMNLP2019 Workshop论文:https://aclanthology.org/D19-5522.pdf代码:GitHub - iqiyi/FASPell: 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)目录模型结构1. 基于bert掩码语言模型的微调2. 基于汉字相似度的解码器汉字相似度实验结果..
2022-03-14 13:11:38
1377
转载 安装pattern出错mysql_config not found
Pattern是Python的一个web挖掘模块。它有工具:1. 数据挖掘: web服务(谷歌,Twitter,维基百科),网络爬虫,HTML DOM解析器 2. 自然语言处理: 词性标记,n-gram搜索,情感分析,WordNet3. 机器学习: 向量空间模型,聚类,分类(KNN, SVM,感知器)4. 网络分析: 图形中心性和可视化。它有很好的文档,经过了350多个单元测试,并附带了50多个示例。GitHub - clips/pattern: Web mining m...
2022-02-28 19:31:53
779
原创 python常用正则表达式
1. 去除text中的空白符,即用空字符代替空格符,制表符,换行符等统称为空白符text = re.sub("\s","",text)
2022-02-14 12:41:55
382
原创 python获取同音字
利用汉字转拼音项目,简单实现获取一个汉字的同音字1. 安装汉字转拼音包pip install pypinyin2. 获取所有汉字的拼音表示,相同拼音的汉字存储在以拼音为key的字典中,考虑声调from pypinyin import pinyin, lazy_pinyin, Styleimport osimport pickle# 获取所有汉字的拼音表示,相同拼音的存储在以拼音为key的字典中,考虑声调def get_all_char_pinyin(): .
2022-02-07 17:25:08
3337
4
原创 Self-Supervised Curriculum Learning for Spelling Error Correction
半监督课程学习用于中文拼写纠错任务课程学习(CL) 以一种从易到难的顺序促进模型训练,该方法需要对数据难度和训练细则进行仔细设计。纠错中得数据的难易程度受许多因素的影响,如句子长度、词的稀缺性和错误的多样性等论文提出将训练损失作为数据难度的度量(即损失越大的数据越难学习),并基于训练过程中的损失下降程度来评估模型能力(即损失越小的模型性能越好)。算法流程如下:算法步骤:1. 在原有构造的数据上,训练模型1epoch,得到初始纠错模型2. 利用初始纠错模型以及如下两个公式计
2022-01-19 11:29:56
2349
翻译 torch.index_select与torch.gather
torch.index_selectindex_select 只能处理两维矩阵,指定行或者列的索引,按行或者按列取出# indices 只能是一维x = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8], [2, 2, 3, 4]])print(x)indices = torch.tensor([0, 2])print(torch.index_select(x, 0, indices))# 按行取print(torch.index_select(x,
2022-01-19 10:02:18
655
原创 Focal loss及其实现
Focal loss 出自ICCV2017RBG和Kaiming大神的论文Focal Loss for Dense Object Detection对标准的交叉熵损失做了改进,效果如上图所示。标准的交叉熵损失函数见:loss函数之NLLLoss,CrossEntropyLoss_ltochange的博客-CSDN博客_nll函数横坐标为,代表样本实际类别的预测概率,越大,代表样本越容易进行分类,纵坐标为loss。通过引入调制系数可减少loss中易分类样本的权重,从而使得模型在...
2022-01-09 18:48:33
2437
原创 SpellGCN: Incorporating Phonological and Visual Similarities intoLanguage Models
模型结构图:创新点:通过图卷积网络改变了分类层的权值W(原来直接使用bert的embedding层权值)复现结果以及分析:
2021-12-30 13:19:11
488
原创 联想回文字符串的编程题
1. 判断是否是回文序列,输入是整数或者字符串import stringdef isPalindrome_str(s: str) -> bool: """ 判断是否视回文字符串,不考虑非字母字符 O(n)的时间复杂度 """ n = len(s) i = 0 j = n - 1 while i < j: while i < n and s[i] not in string.ascii_letter
2021-11-25 10:41:26
395
原创 每天一个linux命令:du 与 df
dudu 会显示指定的目录或文件所占用的磁盘空间。查看当前文件夹的磁盘占用情况,并排序du -h --max-depth=1|sort -rndu -m --max-depth=1|sort -n-h: 以G为单位,m表示以M为单位,k表示以kb为单位--max-depth=1|: 表示只考虑当前层,不往下查训sort是按大小排序dfdf用于显示目前在 Linux 系统上的文件系统磁盘使用情况统计。du -h或者 du -h + 文件系统名...
2021-11-19 14:44:23
1542
转载 pytorch中获取模型参数
原文链接:pytorch中获取模型参数:state_dict和parameters两个方法的差异比较_造未来-CSDN博客一、本文的模型案例代码如下:import torchimport torch.nn.functional as Ffrom torch.optim import SGD class MyNet(torch.nn.Module): def __init__(self): super(MyNet, self).__init__() # ..
2021-11-19 14:31:59
9015
转载 TensorFlow:判断CUDA和GPU是否可用
原文链接:https://blog.csdn.net/qq_45616304/article/details/112758607查看tf版本print(tf.__version__)判断CUDA是否可用:tf.test.is_built_with_cuda()判断GPU是否可用:tf.test.is_gpu_available( cuda_only=False, min_cuda_compute_capability=None )...
2021-11-19 14:23:02
1436
转载 docker拉取的pytorch-gpu版找不到cuda和cudnn的位置
转自:本文链接:docker拉取的pytorch-gpu版找不到cuda和cudnn的位置,为何?_ljp1919的专栏-CSDN博客问题描述pytorch 镜像位置:https://hub.docker.com/r/pytorch/pytorch/tags拉取镜像:docker pull pytorch/pytorch:1.5-cuda10.1-cudnn7-runtime查看本地现有镜像清单:创建一个容器:docker run --gpus all -td.
2021-11-18 19:51:21
2403
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人