
NLP
coderpai
微信公众号:CoderPai
专注于人工智能在量化交易的应用,以程序员的角度思考金融问题。
展开
-
NLP任务总结
作者:chen_h微信号 & QQ:862251340微信公众号:coderpai一:词法分析分词 (Word Segmentation/Tokenization, ws): 在对文本进行处理的时候,会对文本进行一个分词的处理,下面是一个常用的词库。新词发现 (New Words Identification, nwi):这个好理解,因为网络上总是有新的词汇出现,比如以前的’...原创 2020-03-23 16:25:22 · 547 阅读 · 0 评论 -
(一)ngram 模型
作者:chen_h微信号 & QQ:862251340微信公众号:coderpai(一)ngram 模型N-gram 模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。N-gram 本身也指一个由N个单词组成的集合,各单...原创 2020-01-22 16:58:45 · 1996 阅读 · 0 评论 -
标记问题:介绍
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai该系列将描述一些自然语言处理方面的技术,完整目录请点击这里。在很多的 NLP 问题中,我们想对两个序列进行建模,词性标注(POS)问题可能是最早也是最有名的一个案例。在词性标注中,我们的目标是建立一个模型,它的输入是一个句子序列,比如:模型的输出也是一个标签系列,比如:...原创 2018-05-06 17:22:46 · 407 阅读 · 0 评论 -
标记问题:生成模型和噪声通道模型
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai该系列将描述一些自然语言处理方面的技术,完整目录请点击这里。在本节中,我们描述一个重要的监督学习模型。接下来,我们来介绍一个用于标记问题的特定生成模型——隐马尔可夫模型。我们先来确定一些监督学习的符号。我们假设我们的训练集是 (x^(i), y^(i)), …, (x^...原创 2018-05-06 17:23:12 · 818 阅读 · 0 评论 -
词级语言建模与字符级语言建模
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai目前在自然语言理解问题中,字符级语言建模得到越来越多的关注。在这里,我简单地比较了一下字符级语言模型和词级语言模型。词级语言建模是指把词作为文本信息的最小单位。在语义空间中,单词就好像是空间中的一个节点。在这种情况下,通过 TF 技术或者主题模型技术或者词嵌入模型来生成特征向量或字矢量...原创 2018-05-06 17:23:30 · 2216 阅读 · 0 评论 -
机器学习算法在文本分类中的应用综述
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai机器学习的一个主要应用就是在文本分类领域,比如我们去检测一些垃圾邮件,去定义一个文章的属性,或者去挖掘一篇文章的关键信息。在这篇文章中,Roman Trusov 对机器学习如何应用在文本分类做了一个深入的分析。你可能认为去定义一个最好的文本分类模型是不可能的。在计算机视觉领域,对于...原创 2018-05-06 17:23:52 · 3636 阅读 · 0 评论 -
从-Quora-的-187-个问题中学习机器学习和NLP
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpaiQuora 已经变成了一个获取重要资源的有效途径。许多的顶尖研究人员都会积极的在现场回答问题。以下是一些在 Quora 上有关 AI 的主题。如果你已经在 Quora 上面注册了账号,你可以订阅这些主题。Computer-Science (5.6M followers)Ma...原创 2018-05-07 11:03:18 · 273 阅读 · 0 评论 -
语言模型:介绍
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai该系列将描述一些自然语言处理方面的技术,完整目录请点击这里。这个专题,我们主要学习如何从一个句子中来构建一个语言模型。语言模型最早是应用在语音识别的问题上,当然它们仍然在现代语音识别系统中发挥着核心的作用。之后,语言模型也被广泛的应用到其他的NLP任务之中。最原始的语言模型是采用参...原创 2018-05-22 12:07:55 · 2686 阅读 · 0 评论 -
语言模型:马尔可夫模型
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai该系列将描述一些自然语言处理方面的技术,完整目录请点击这里。这个教程,我们将要讨论语言模型的关键问题:给定一个语料库,我们如何学习到概率 p? 在这一部分,我们将利用马尔科夫模型来解决这个问题。1.1 马尔科夫模型对于确定长度的序列问题考虑一个随机变量序列,X1, X2, ...原创 2018-05-22 12:08:26 · 2742 阅读 · 0 评论 -
语言模型:Trigram-模型的平滑估计
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai该系列将描述一些自然语言处理方面的技术,完整目录请点击这里。正如我们前面讨论的,三元语言模型有非常多的参数。利用最大似然估计会造成一个很严重的问题,就是很多的值都会变成零,数据将会非常稀疏。即使我们把训练集设置的非常大,但是很多的三元组 c(u, v, w) 或者二元组 c(u, ...原创 2018-05-22 12:08:50 · 4396 阅读 · 0 评论 -
语言模型:Trigram-语言模型
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai该系列将描述一些自然语言处理方面的技术,完整目录请点击这里。有很多种定义语言模型的方式,在这里我们将重点介绍一种特别重要的方式,即三元语言模型(Trigram language model)。这将是根据上一节中关于马尔科夫模型的最直接的一个应用。在这一部分中,我们将给出三元语言模型...原创 2018-05-22 12:09:12 · 11361 阅读 · 2 评论 -
标记问题:词性标注(POS)和命名实体识别(NER)
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai该系列将描述一些自然语言处理方面的技术,完整目录请点击这里。在 NLP 问题中,有两个问题是比较重要的标记问题:词性标注和命名实体识别。比如上图我们介绍了一个简单的词性标注问题。模型输入的是一个句子,输出是一个标记序列,模型会为每个词都产生一个标记。我们的目标是构建一个高精...原创 2018-05-06 17:22:25 · 8082 阅读 · 0 评论 -
7个很棒的-chatbot-应用场景
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai为聊天机器人选择正确的应用场景,从而获得商业价值。在整个 chatbot 构建过程中,选择合适的业务场景是最重要的一部分。你设计 chatbot 的目的,将影响你如何去设计 chatbot 的专有语料信息,以及将来如何重构整个 chatbot 。以下是 7 个使用 chatbo...原创 2018-05-06 17:21:58 · 3812 阅读 · 0 评论 -
五个入门深度学习自然语言处理资源
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai这里收集了五个入门深度学习自然语言处理资源,这些资源为你介绍了目前一些最新的技术。它也为你提供了一些下一步自然语言发展的方向。1.Deep Learning for NLP (without Magic)这是由斯坦福大学 Richard Socher 和 MetaMind 共同...原创 2018-05-17 23:18:25 · 1191 阅读 · 0 评论 -
NLTK-下载语料库遇到的问题
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai首先我们使用 pip3 下载 nltk 语料库。pip3 install nltk之后,我们在终端中进行语料库的安装import nltknltk.download()这个命令是用来下载 nltk 自带的语料库内容的。结果你会碰到如下问题:从图中,我们可以...原创 2018-05-09 10:47:08 · 1697 阅读 · 0 评论 -
Chatbot-架构
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpaiChatbot 的开发者越来越多了,一些创业公司都开始开发自己的聊天机器人产品,包括提供平台类的,提供API 的,提供分析工具的等等。很多的博客,杂志和视频都充满着工业界对聊天机器人的宠爱,开发者们也聚集在一起讨论如何开发,以及参加各种会议。我也开发过一段时间的聊天机器人,在这篇文...原创 2018-05-09 10:47:38 · 2340 阅读 · 0 评论 -
Gensim-中-word2vec-函数的使用
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpaiGensim 是我比较常用的一个 NLP 工具包,特别是其中的 word2vec 模块,它的具体 API 如下:class gensim.models.word2vec.Word2Vec( sentences=None, size=10...原创 2018-05-09 10:48:00 · 7819 阅读 · 0 评论 -
在-TensorFlow-上实现的-Word2Vec-教程
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai在这篇教程中,我们尝试使用深度学习模型来预测文本序列。但是,在我们利用深度学习处理文本之前,我们需要先学习一些 NLP 的基础信息。其中,一个比较重要的想法是将文字转化为数字向量,然后将数字向量输入到机器学习模型中。目前比较流行的处理方法是采用 word2vec 技术。为什么我们需...原创 2018-05-09 10:48:53 · 891 阅读 · 0 评论 -
利用-TensorFlow-入门-Word2Vec
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai我认为学习算法的最好方法就是尝试去实现它,因此这个教程我们就来学习如何利用 TensorFlow 来实现词嵌入。这篇文章我们不会去过多的介绍一些词向量的内容,所以很多 king - man - woman - queue 的例子会被省去,直接进入编码实践过程。我们如何设计这些词...原创 2018-05-17 23:15:47 · 360 阅读 · 0 评论 -
利用-TensorFlow-实现上下文的-Chat-bots
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai在我们的日常聊天中,情景才是最重要的。我们将使用 TensorFlow 构建一个聊天机器人框架,并且添加一些上下文处理机制来使得机器人更加智能。)](http://upload-images.jianshu.io/upload_images/1155267-848deb7e720282...原创 2018-05-17 23:16:10 · 581 阅读 · 0 评论 -
如何入门NLP
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai有时候当我被一个问题问到两次的时候,我就觉得我应该把对这个问题的回答整理成一篇文章。基于这个原因和为了节约我未来的时间,今天我就对“如何入门NLP”这个话题,写成了一篇文章。在你阅读下面的资料之前,我想说明一下。这个资料可能只是一个非常通用的入门材料(也可能不是很完整)。为了避免阅...原创 2018-05-17 23:16:28 · 1868 阅读 · 1 评论 -
如何为聊天机器人设计数据通道
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai](http://upload-images.jianshu.io/upload_images/1155267-e4bd0a1164368068.jpeg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)聊天机器人开发者通常使用两种...原创 2018-05-17 23:16:46 · 368 阅读 · 0 评论 -
入门自然语言处理数据集
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai在开始深入的学习自然语言处理任务时,我们需要准备一些数据集用来训练自己的算法。在选择数据集上面,你最好使用可以快速下载的小的数据集,这种数据不用花太多的时间来训练模型。此外,你也可以使用一些标准的数据集或者被广泛使用的数据集,这样你可以把你的测试结果和别人的结果进行对比,以此来看是否取...原创 2018-05-17 23:17:39 · 4101 阅读 · 2 评论 -
Flashtext:大规模数据清洗的利器
作者:chen_h微信号 & QQ:862251340博客地址:http://www.jianshu.com/p/95e3630ad9e2在这篇文章中,我们将介绍一种新的关键字搜索和替换的算法:Flashtext 算法。Flashtext 算法是一个高效的字符搜索和替换算法。该算法的时间复杂度不依赖于搜索或替换的字符的数量。比如,对于一个文档有 N 个字符,和一个有 M 个词的关键词库,那么时间复杂原创 2017-11-19 15:57:12 · 9641 阅读 · 2 评论