NLTK 学习笔记（1）

最新推荐文章于 2025-01-21 09:36:24 发布

liuha511

最新推荐文章于 2025-01-21 09:36:24 发布

阅读量1.7k

点赞数 2

分类专栏： NLP 文章标签：自然语言处理 NLTK

本文链接：https://blog.csdn.net/liuha511/article/details/41620181

版权

NLP 专栏收录该内容

10 篇文章

订阅专栏

1. 规范化文本（Normalizing)

(1) 词干提取（Stemmers)

【原文】Porter 和Lancaster 词干提取器按照它们自己的规则剥离词缀。请注意Porter 词干提取器正确处理了词lying（将它映射为lie ），而Lancaster 词干提取器并没有处理好。

我们完全按照书上的例子来试一下：发现distributing->distribut; listen->list; mandate->mandat,mand;

>>>raw = """DENNIS: Listen, strange women lying in ponds distributing swords is no basis for a system of government. Supreme executive power derives from a mandate from the masses, not from some farcical aquatic ceremony."""
>>> tokens = nltk.word_tokenize(raw)
>>> porter = nltk.PorterStemmer()
>>> lancaster = nltk.LancasterStemmer()
>>> [porter.stem(t) for t in tokens]
[u'DENNI', u':', u'Listen', u',', u'strang', u'women', u'lie', u'in', u'pond', u'distribut', u'sword', u'is', u'no', u'basi', u'for', u'a', u'system', u'of', u'govern', u'.', u'Suprem', u'execut', u'power', u'deriv', u'from', u'a', u'mandat', u'from', u'the', u'mass', u',', u'not', u'from', u'some', u'farcic', u'aquat', u'ceremoni', u'.']
>>> [lancaster.stem(t) for t in tokens]
['den', ':', 'list', ',', 'strange', 'wom', 'lying', 'in', 'pond', 'distribut', 'sword', 'is', 'no', 'bas', 'for', 'a', 'system', 'of', 'govern', '.', 'suprem', 'execut', 'pow', 'der', 'from', 'a', 'mand', 'from', 'the', 'mass', ',', 'not', 'from', 'som', 'farc', 'aqu', 'ceremony', '.']

(2)词性归并（Lemmatization）

【原文】WordNet 词形归并器删除词缀产生的词都是在它的字典中的词。这个额外的检查过程使词形归并器比刚才提到的词干提取器要慢。请注意，它并没有处理“lying”，但它将“women”转换为“woman”。

我们完全按照书上的例子来试一下：问题是进行时distributing和三人称单数derives也没有归并为原型，大概是因为词典的原因吧。

>>> wnl = nltk.WordNetLemmatizer()
>>> [wnl.lemmatize(t) for t in tokens]
['DENNIS', ':', 'Listen', ',', 'strange', u'woman', 'lying', 'in', u'pond', 'distributing', u'sword', 'is', 'no', 'basis', 'for', 'a', 'system', 'of', 'government', '.', 'Supreme', 'executive', 'power', 'derives', 'from', 'a', 'mandate', 'from', 'the', u'mass', ',', 'not', 'from', 'some', 'farcical', 'aquatic', 'ceremony', '.']

论文《词形还原方法及实现工具比较分析》得出结论

词形还原（lemmatization），是把一个任何形式的语言词汇还原为一般形式（能表达完整语义），而词干提取（stemming）是抽取词的词干或词根形式（不一定能够表达完整语义）。词形还原和词干提取是词形规范化的两类重要方式，都能够达到有效归并词形的目的，二者既有联系也有区别

现将共同点和联系总结为以下４方面：
　　（１）目标一致。词干提取和词形还原的目标均为将词的屈折形态或派生形态简化或归并为词干（stem）或原形的基础形式，都是一种对词的不同形态的统一归并的过程。
　　（２）结果部分交叉。词干提取和词形还原不是互斥关系，其结果是有部分交叉的。一部分词利用这两类方法都能达到相同的词形转换效果。如“dogs”的词干为“dog”，其原形也为“dog”。
　　（３）主流实现方法类似。目前实现词干提取和词形还原的主流实现方法均是利用语言中存在的规则或利用词典映射提取词干或获得词的原形。
　　（４）应用领域相似。主要应用于信息检索和文本、自然语言处理等方面，二者均是这些应用的基本步骤

二者的区别归纳为以下５方面：
　　（１）在原理上，词干提取主要是采用“缩减”的方法，将词转换为词干，如将“cats”处理为“cat”，将“effective”处理为“effect”。而词形还原主要采用“转变”的方法，将词转变为其原形，如将“drove”处理为“drive”，将“driving”处理为“drive”。
　　（２）在复杂性上，词干提取方法相对简单，词形还原则需要返回词的原形，需要对词形进行分析，不仅要进行词缀的转化，还要进行词性识别，区分相同词形但原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率，因此，词形还原更为复杂。
　　（３）在实现方法上，虽然词干提取和词形还原实现的主流方法类似，但二者在具体实现上各有侧重。词干提取的实现方法主要利用规则变化进行词缀的去除和缩减，从而达到词的简化效果。词形还原则相对较复杂，有复杂的形态变化，单纯依据规则无法很好地完成。其更依赖于词典，进行词形变化和原形的映射，生成词典中的有效词。