- 博客(389)
- 资源 (20)
- 问答 (1)
- 收藏
- 关注

原创 自然语言处理之分词、命名主体识别、词性、语法分析-stanfordcorenlp-NER(二)
转载请注明出处:https://blog.csdn.net/HHTNAN在前面我们介绍了Stanford CoreNLP,自然语言处理之命名实体识别-tanfordcorenlp-NER(一)功能列表工具以及对各种语言的支持如下表(英文和中文支持的最好),分别对应:分词,断句,定词性,词元化,分辨命名实体,语法分析,情感分析,同义词分辨等。Annotatorarzhenfrdees...
2018-12-18 14:20:32
4816
3

原创 自然语言处理-错字识别(基于Python)kenlm、pycorrector
中文文本纠错划分中文文本纠错任务,常见错误类型包括:谐音字词,如 配副眼睛-配副眼镜混淆音字词,如 流浪织女-牛郎织女字词顺序颠倒,如 伍迪艾伦-艾伦伍迪字词补全,如爱有天意-假如爱有天意形似字错误,如 高梁-高粱中文拼音全拼,如 xingfu-幸福中文拼音缩写,如 sz-深圳语法错误,如想象难以-难以想象当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处...
2018-11-15 13:54:24
17176
20

原创 mongodb(从0到1),11天mongodb初级到中级进阶秘籍
MongoDB是一个NoSQL数据库。 它是一个开源,跨平台,面向文档的数据库。此MongoDB chat包括MongoDB数据库的安装,IDE选择,基本操作等,具体内容如下: 内容提要: 1、简述NOSQL与mongodb概念理解 2、安装与配置mongodb与使用IDE 3、连接与创建数据库 4、基本操作之增删改查(一) 5、基本操作之增删改查(二) 6、条件查询 7、聚合函数
2018-01-06 11:07:31
2223

原创 windows10 tensorflow(二)原理实战之回归分析,深度学习框架(梯度下降法求解回归参数)
windows10 tensorflow(二)原理实战之回归分析,深度学习框架(梯度下降法求解回归参数) TF数据生成方式:参考TF数据生成12法 TF基本原理与概念理解: tensorflow(一)windows 10 64位安装tensorflow1.4与基本概念解读tf.global_variables_initializer模型:一个简单的线性回归y = W * x + b,采
2018-01-05 15:33:27
2000
1

原创 python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库。 jieba的分词,提取关键词,自定义词语。 结巴分词的原理 这里写链接内容一、 基于结巴分词进行分词与关键词提取1、jieba.cut分词三种模式jieba.cut 方法接受三个输入参数: 需要分
2017-08-02 17:13:10
45857
3
原创 基于spacy的句法依存、实体识别、分析
文章目录简介spaCy特性:系统环境与版本安装应用示例参考文献简介spaCyspaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。因此它是一个非常快的库。它建立在最新的研究基础上,从设计的第一天起就被用于实际产品中。spaCy 自带预训练的管道,目前支持 60 多种语言的标记化和训练。它具有最先进的速度和神经网络模型,可用于标记、解析、命名实体识别、文本分类等,使用 BERT 等预训练的变换器进行多任务学习,以及生产就绪的训练系统和简单的模型打包、部署和工作流管理。
2023-12-13 14:41:42
1653
原创 huggingface.Meta语言模型LLaMA解读:模型的下载部署与运行代码
Meta最新语言模型LLaMA解读,LLaMA是Facebook AI Research团队于2023年发布的一种语言模型,这是一个基础语言模型的集合。
2023-08-31 18:22:12
2332
3
原创 【大模型】二 、大语言模型的基础知识
GPT-3:发布于2020年,GPT-3有1750亿的参数,比GPT-1大了100多倍,比GPT-2大了10倍以上。然而,GPT-3仍然存在一些问题,例如返回有偏见、不准确或不适当的回答,或者生成与提示完全无关的文本,表明该模型在理解上下文和背景知识方面仍然存在困难。GPT-4:发布于2023年3月14日,GPT-4在GPT-3的基础上有了显著的提升。尽管模型的训练数据和架构的具体细节尚未公布,但可以肯定的是,GPT-4在GPT-3的优点上进行了建设,并克服了其中的一些限制。以GPT模型为例,阐述其发展。
2023-08-21 10:46:14
1769
原创 大模型一、大语言模型的背景和发展
本文系文章的第一篇文章,后续将陆续更新相关模型的技术,在 finetune、prompt、SFT、PPO等方向进行逐步更新,欢迎关注,也可私密需要实现的模型。
2023-08-21 10:38:31
1823
原创 jupyter notebook中使用新环境
当我们使用conda创建虚拟环境后,kernel不会自动添加到jupyter notebook的kernel列表当中,这时候就需要我们通过命令手动添加
2022-06-28 10:45:45
1575
原创 【C/C++ 2】Clion配置与运行C语言
【C/C++ 1】Clion配置与运行C语言【C/C++ 2】Clion配置与运行C语言一、C++调用外部文件中的函数方法一、 在当前项目中建一新项目,把下列文件添中到项目中 主函数map1.cpp,其中添加 #include “map7.h”,方法二: 在主函数map1.cpp中直接中添加 #include “add.cpp”,#include " sub.cpp",把这三个文件放在同一目录下。参考链接:方法二我这里示例方法一:1.头文件map7.h 声明 map7.ccp中函数
2020-05-27 17:34:51
2657
原创 python与java实现余弦相似度,以及点乘和星乘的区别
文章目录矩阵乘法,星乘(*)和点乘(.dot)的区别1.基本示例2. 总结python实现余弦相似度java实现余弦相似度矩阵乘法,星乘(*)和点乘(.dot)的区别1.基本示例import numpya = numpy.array([[1,2], [3,4]])b = numpy.array([[5,6], [7,8]...
2020-04-15 22:41:46
969
原创 知识图谱(二):图数据库neo4j的Linux安装与基本使用
文章目录linux(centos6.4) 配置Neo4j一、首先安装JDK1.首先进入到root用户下2.添加sudo文件的写权限3.编辑sudoers文件4.撤销sudoers文件写权限,命令:二、下载JDK三、配置环境变量1.用vi命令在环境变量中加上jdk路径的环境变量2.然后执行source3.测试四、下载Neo4j安装1.下载Neo4j安装包2.解压Neo4j安装包3.启动4.错误排查...
2020-04-08 14:57:49
1193
原创 自然语言处理-搜索中常用的bm25
BM25算法是一种常见用来做相关度打分的公式,思路比较简单,主要就是计算一个query里面所有词和文档的相关度,然后在把分数做累加操作,而每个词的相关度分数主要还是受到tf/idf的影响。关于BimBIM(二元假设模型)对于单词特征,只考虑单词是否在doc中出现过,并没有考虑单词本身的相关特征,BM25在BIM的基础上引入单词在查询中的权值,单词在doc中的权值,以及一些经验参数,所以BM25...
2019-11-22 19:29:39
1233
原创 TF flags的简介
1、TF flags的简介1、flags可以帮助我们通过命令行来动态的更改代码中的参数。Tensorflow 使用flags定义命令行参数的方法。ML的模型中有大量需要tuning的超参数,所以此方法,迎合了需要一种灵活的方式对代码某些参数进行调整的需求(1)、比如,在这个py文件中,首先定义了一些参数,然后将参数统一保存到变量FLAGS中,相当于赋值,后边调用这些参数的时候直接使用FLAGS...
2019-10-25 14:55:42
1798
原创 python 下载模块加速实现记录
加速pip下载:更换pip源pip下载python包时默认使用国外源,下载比较慢,可以考虑替换为国内源。临时修改源清华源清华大学的pip源,它是官网pypi的镜像,每隔5分钟同步一次,推荐使用。pip install -i https://pypi.tuna.tsinghua.edu.cn/simple –trusted-host pypi.tuna.tsinghua.edu.cn p...
2019-09-26 10:43:26
860
原创 DeepWalk模型的简介与优缺点
1、DeepWalk[DeepWalk] DeepWalk- Online Learning of Social Representations (SBU 2014)word2vec是基于序列进行embedding;但是,实际上实体之间的关系越来越复杂化、网络化。这个时候sequence embedding------>graph embedding。图的定义:G=(V,E),Evv...
2019-09-18 10:50:26
5007
原创 nlp模型-bert从入门到精通(二)
命名实体识别首先下载相应bert 模块pip install bert-base==0.0.9 -i https://pypi.python.org/simple也可参考官网处理安装验证
2019-09-11 16:58:27
1866
原创 nlp模型-bert从入门到精通(一)
文章目录基础资料准备从0到1了解模型的优缺点BERT这个模型与其它两个不同的是:BERT模型具有以下两个特点:模型的输入参考资料:在说内容之前先把,bert基本资料准备一下基础资料准备tensorflow版:点击传送门pytorch版(注意这是一个第三方团队实现的):点击传送门论文:点击传送门从0到1了解模型的优缺点从现在的大趋势来看,使用某种模型预训练一个语言模型看起来是一种比较靠...
2019-09-11 15:18:26
4026
原创 MySQL 中对字符串进行操作:字符串截取
1、left(name,4)截取左边的4个字符SELECT LEFT(201809,4) 年结果:20182、right(name,2)截取右边的2个字符SELECT RIGHT(201809,2) 月份结果:093、SUBSTRING(name,5,3) 截取name这个字段 从第五个字符开始 只截取之后的3个字符SELECT SUBSTRING('成都融资事业部',5,3)...
2019-08-02 11:11:25
2583
原创 keras model.compile损失函数与优化器
概述损失函数是模型优化的目标,所以又叫目标函数、优化评分函数,在keras中,模型编译的参数loss指定了损失函数的类别,有两种指定方法:model.compile(loss='mean_squared_error', optimizer='sgd')或者from keras import lossesmodel.compile(loss=losses.mean_squared_err...
2019-07-12 10:47:31
6074
转载 hive 转义字符的使用,以及regexp_extract用法
语法:regexp_extract(string subject, string pattern, int index)返回值: string说明: 将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。第一参数: 要处理的字段第二参数: 需要匹配的正则表达式第三个参数:0是显示与之匹配的整个字符串1 是显示第一个括号里面的2 是...
2019-07-07 16:42:03
6242
原创 Query意图识别分析
outline近段时间在研究搜索的相关技术,在工作中主要涉及到资讯搜索功能的实现。我们采用了elasticsearch搜索引擎,es基础和es进阶1。由于需要对搜索功能进行迭代,所以笔者继续深入研究搜索原理和性能优化。本文主要研究以下几点:什么是搜索搜索评价指标意图识别query改写什么是搜索一个搜索引擎的技术构建主要包含三大部分:(1) 对query的理解(2) 对内容(文档)...
2019-07-02 15:05:55
3489
原创 tensorflow之tf.tile\tf.slice等函数的基本用法解读
文章目录tf.tiletf.slicetf.square()tf.reduce_sumtf.multiply()tf.matmul()tf.truedivtf.tile解读:tensorflow中的tile()函数是用来对张量(Tensor)进行扩展的,其特点是对当前张量内的数据进行一定规则的复制。最终的输出张量维度不变。函数定义:tf.tile( input, mult...
2019-06-27 19:15:13
2486
原创 对pandas 数据进行数据打乱并选取训练机与测试机集
描述在机器学习中,拿到一堆训练数据一般会需要将数据切分成训练集和测试集,或者切分成训练集、交叉验证集和测试集,为了避免切分之后的数据集在特征分布上出现偏倚,我们需要先将数据打乱,使数据随机排序,然后在进行切分。需要用的方法如下:注:df代表一个pd.DataFramedf = df.sample(frac=1.0): 按100%的比例抽样即达到打乱数据的效果df = df.reset_i...
2019-06-26 23:35:30
2913
原创 mac 安装hanlp,以及win下安装与使用
hanlp简介:HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁hanlp环境安装(mac)hanlp是java写的开源库,在python环境中调用hanlp...
2019-06-25 11:55:19
1737
原创 python 保存list数据
对于一个列表a[]:保存filename = open(‘a.txt’, ‘w’)for value in a:filename.write(str(value))filename.close()读取f= open(“a.txt”,“r”)a = f.read()f.close()以上这种方法虽然占用空间小,但是原来的list格式会被破坏。为此也可以用以下发方法,此方法可以保留...
2019-06-24 15:34:31
39557
原创 mac 下常用快捷键,mac启动ftp
Command + K清屏Command + T新建标签Command + M最小化窗口Command +W 关闭当前标签页Command + S 保存终端输出Command + D 垂直分隔当前标签页Command + Shift + D 水平分隔当前标签页Command + shift + {或}向左/向右切换标签Ctrl + d 删除一个字符,相当于通常的Delete键(命...
2019-06-20 20:35:12
1414
原创 安装Anaconda3 后,怎样使用 Python 2.7?
首先在anaconda官网下载对应版本的anaconda3安装anaconda3打开anaconda3,在界面左侧点击Environments,再点击下面的Create按钮会出现如下窗口,给要创建的Python环境命名并选择版本,选好后点击Create即可生成新的Python版本环境,如下图在anaconda3下使用不同版本的Python:1、在anaconda3图形界面中使用:只需点...
2019-06-19 21:29:29
10252
原创 TensorFlow2.0 问世,Pytorch还能否撼动老大哥地位?
文章目录TensorFlow 2.0 previewTensorFlow 2.0 上线市场占有率全球情况中国概览TensorFlow与PyTorch区别TensorFlow2.0新特性主要变化简要总结1.0到2.0过渡自动过渡兼容方面小结参考文献TensorFlow 2.0 preview关于TensorFlow 2.0 preview,在谷歌开源战略师 Edd Wilder-James 曾将...
2019-03-19 15:47:00
6009
原创 接口压力测试:Siege压测安装、使用和说明
简介siege是一款开源的压力测试工具,可以根据配置对一个WEB站点进行多用户的并发访问,记录每个用户所有请求过程的相应时间,并在一定数量的并发访问下重复进行。下载安装环境:centos 6.4 私有服务器官网地址:http://download.joedog.org/siege/1.下载:wget http://download.joedog.org/siege/siege-4.0....
2019-03-01 10:07:42
2061
原创 Pattern matching: The gestalt approach一种序列的文本相似度方法
Pattern matching: The gestalt approachpython 比较两个序列的相似度,不需要分词案例1import diffliba="做子宫肌瘤微创手术用多少钱"b="股癣是什么样子的?怎么治疗股癣好?"print (difflib.SequenceMatcher(None,a,b).rat
2019-02-26 13:39:13
1549
原创 Linux 后台运行python .sh等程序,以及查看和关闭后台运行程序操作
1、运行.sh文件直接用./sh 文件就可以运行,但是如果想后台运行,即使关闭当前的终端也可以运行的话,需要nohup命令和&命令。(1)&命令 功能:加在一个命令的最后,可以把这个命令放在后台执行(2)nohup命令 功能:不挂断的运行命令2、查看当前后台运行的命令有两个命令可以用,jobs和ps,区别是jobs用于查看当前终端后台运行的任务...
2019-01-31 15:43:14
5536
原创 python过滤敏感词记录
简述:关于敏感词过滤可以看成是一种文本反垃圾算法,例如题目:敏感词文本文件 filtered_words.txt,当用户输入敏感词语,则用 星号 * 替换,例如当用户输入「北京是个好城市」,则变成「**是个好城市」代码:#coding=utf-8def filterwords(x): with open(x,'r') as f: text=f.read() ...
2019-01-23 13:19:09
7042
6
原创 文本去重的技术方案讨论(一)
对于文本去重来说,我个人处理上会从数据量、文本特征、文本长度(短文本、长文本)几个方向考虑。常见的去重任务,如网页去重,帖子去重,评论去重等等。好的去重任务是不仅比对文本的相似性,还要比对语义上的相似性。下面我们来介绍下文本去重的方案。1.传统签名算法与文本完整性判断一、传统签名算法与文本完整性判断问题抛出:(1)运维上线一个bin文件,将文件分发到4台线上机器上,如何判断bin文件...
2019-01-18 14:47:25
2952
原创 GBDT与xgb区别,以及梯度下降法和牛顿法的数学推导
为什么要介绍梯度下降法和牛顿法那?这里提及两个算法模型GBDT和XGBoost,两个都是boosting模型。GBDT和xgb的目标函数是不同的,同时针对其目标函数中的误差函数 L(θ) 的拟合方式也有差异:GBDT利用一阶泰勒展开两项,做一个近似xgboost利用二阶泰勒展开三项,做一个近似言为之意,GBDT在函数空间中利用梯度下降法进行优化XGBoost在函数空间中用牛顿法进行...
2019-01-05 15:48:32
2579
Scalable Modified Kneser-Ney Language Model Estimation语言模型PPT
2018-11-19
mabaXterm ssh linux连接工具,一个非常好用的工具
2018-08-03
数学建模模板(建模论文竞赛标准版)
2018-01-13
window_mongodb执行过程个人笔记——不建议下载.txt
2017-10-17
pagerank算法英文文档
2017-09-20
基于最小领域知识的主题建模 :Topic Modeling with Minimal Domain Knowledge
2017-09-19
TextRank算法的参考资料论文
2017-09-19
高德地图API POI分类编码表
2017-09-19
python wordcloud-1.3.1-cp36-cp36m-win_amd64.wh
2017-06-07
cw2vec相关资料,cw2vec论文与Word Vectors
2010-01-11
一个网站之前可以访问,没有做任何处理,现在报错500,麻烦帮忙看下,不知如何解决
2017-10-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人