19

我需要一个好的 python 模块来在预处理阶段提取文本文档。

我找到了这个

http://pypi.python.org/pypi/PyStemmer/1.0.1

但我在提供的链接中找不到文档。

我有人知道在哪里可以找到文档或任何其他好的词干算法,请帮忙。

4

5 回答 5

32

您可能想尝试NLTK

>>> from nltk import PorterStemmer
>>> PorterStemmer().stem('complications')
于 2012-04-29T03:15:23.110 回答
7

这里讨论的所有这些词干分析器都是算法词干分析器,因此它们总是会产生意想不到的结果,例如

In [3]: from nltk.stem.porter import *

In [4]: stemmer = PorterStemmer()

In [5]: stemmer.stem('identified')
Out[5]: u'identifi'

In [6]: stemmer.stem('nonsensical')
Out[6]: u'nonsens'

要正确获取词根,需要一个基于字典的词干分析器,例如 Hunspell Stemmer。下面是它的 python实现。示例代码在这里

>>> import hunspell
>>> hobj = hunspell.HunSpell('/usr/share/myspell/en_US.dic', '/usr/share/myspell/en_US.aff')
>>> hobj.spell('spookie')
False
>>> hobj.suggest('spookie')
['spookier', 'spookiness', 'spooky', 'spook', 'spoonbill']
>>> hobj.spell('spooky')
True
>>> hobj.analyze('linked')
[' st:link fl:D']
>>> hobj.stem('linked')
['link']
于 2015-09-02T16:58:31.853 回答
6

Python 词干提取模块实现了各种词干提取算法,如 Porter、Porter2、Paice-Husk 和 Lovins。 http://pypi.python.org/pypi/stemming/1.0

    >> from stemming.porter2 import stem
    >> stem("factionally")
    faction
于 2012-04-29T06:50:53.207 回答
2

主题建模包附带了一个 Porter Stemmer 算法gensim

>>> from gensim import parsing
>>> gensim.parsing.stem_text("trying writing nonsense")
'try write nonsens'

PorterStemmer 是在gensim.

附注:我可以想象(无需进一步参考)大多数与文本挖掘相关的模块都有自己的实现,用于简单的预处理过程,如 Porter 的词干提取、空格删除和停用词删除。

于 2017-08-18T09:34:56.537 回答
0

PyStemmer 是 Snowball 词干提取库的 Python 接口。

文档可以在这里找到: https ://github.com/snowballstem/pystemmer/blob/master/docs/quickstart.txt https://github.com/snowballstem/pystemmer/blob/master/docs/quickstart_python3.txt

于 2017-02-11T18:42:53.140 回答