“nltk”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1287 浏览

python - 将 NLTK 与 Google App Engine 结合使用

有人使用 NLTK 和 GAE 吗？从这个线程看来，GAE 不支持 NLTK（需要特殊的安装技巧。）你知道任何其他轻量级的类似 Python 模块吗？谢谢。

2010-11-14T05:47:26.833

0 投票

4 回答

8446 浏览

python - 使用FreqDist，python总结单词频率的数量

如何使用 FreqDist 中的 fd.items() 总结词频数？

例如，如果每个单词most_freq_w出现 10 次，结果应该是100

！！！我不需要文本中所有单词的数量，只需要最常用的 10 个

python nltk frequency-distribution

2010-11-17T16:57:11.080

0 投票

0 回答

2222 浏览

python - 如何创建语料库或语料库以在 NLTK 中对文本进行分类？

我正在构建一个分类器文本。

1、有10个类别，每个类别有更多的相关关键词。2，现在，我有一个文本。我需要将其归为第 3 类，我使用 NLTK，但我不知道如何创建最佳训练语料库，语料库

有人可以帮我提取特征的方法吗，...谢谢你

python nltk classification corpus

2010-11-26T02:52:28.250

0 投票

1 回答

513 浏览

python - 在嵌入式元组/字符串上操作，python

假设我有一个元组格式的标记文本（单词，标签）。我想将其转换为字符串，以便对标签进行一些更改。我下面的函数只看到文本中的最后一句话，我想有一些我无法意识到的明显和愚蠢的错误，所以请帮助使其适用于整个文本。

PS对于那些有兴趣的人，这里描述了tuple2str函数

编辑：现在我应该将它转换回具有相同格式的元组。我该怎么做？

上面的一个转换成整个元组，但我需要嵌入一个（与输入（tpl）相同）

EDIT2：好吧，可能值得发布整个代码：

python string tuples nltk

2010-11-27T23:24:38.263

0 投票

5 回答

1497 浏览

python - 计算一系列项目，python

任务是定义一个函数，该函数count_vowels(text)接受一个字符串text，计算文本中的元音（使用 Python 字典进行计数），并将元音频率信息作为字符串返回。例子：

到目前为止，我想出了：

那么，我的代码有什么问题，如何获得与示例中相同的结果？

python dictionary nltk

2010-12-07T21:36:22.790

0 投票

3 回答

2311 浏览

python - PyPy 可以与 NLTK 一起使用吗？

PyPy 是否可以与 NLTK 一起使用，如果可以，是否有明显的性能改进，比如贝叶斯分类器？

当我们这样做时，是否有任何其他 python 环境（shedskin 等）提供比 cpython 更好的 nlkt 性能？

python nltk pypy

2010-12-08T17:01:17.983

0 投票

2 回答

2688 浏览

python - 试图将 MEGAM 用作 NLTK ClassifierBasedPOSTagger？

我目前正在尝试使用 NLTK 构建一个通用（或尽可能通用）的 POS 标记器。我已经涉足了 brown 和 treebank 语料库进行培训，但可能会选择 treebank 语料库。

边走边学，我发现分类器词性标注器是最准确的。最大实体分类器应该是最准确的，但我发现它使用了太多内存（和处理时间），以至于我必须显着减少训练数据集，因此最终结果不如使用默认的朴素贝叶斯分类器准确。

有人建议我使用 MEGAM。NLTK 对 MEGAM 有一些支持，但我发现的所有示例都是针对通用分类器（例如，使用单词特征向量的文本分类器），而不是更具体的词性标注器。无需重新创建我自己的 POS 特征提取器和编译器（即，我更喜欢使用 NLTK 中已有的那个），我如何使用 MEGAM MaxEnt 分类器？IE。我怎样才能将它放在一些现有的 MaxEnt 代码中，这些代码类似于：

python nlp nltk pos-tagger

2010-12-17T02:29:41.497

0 投票

1 回答

1209 浏览

collections - 我可以从 NLTK 中的字符串集合创建语料库吗？

有没有一种方法可以创建语料库而不必在文件中包含项目。例如，我想操纵从网络上抓取的推文或段落。我可以做类似的事情吗

或者

目的是使用现有的 NLTK 功能来操作语料库。我检查TextCollection过，但似乎它不处理类别。

collections nltk corpus

2010-12-27T14:57:31.670

0 投票

8 回答

28373 浏览

python - 高效的上下文无关语法解析器，最好是 Python 友好的

我需要为我的一个项目解析一小部分英语，描述为具有（1级）特征结构（示例）的无上下文语法，我需要有效地做到这一点。

现在我正在使用NLTK的解析器，它产生正确的输出，但速度很慢。对于我的约 450 条相当模糊的非词汇规则和 50 万个词汇条目的语法，解析简单句子可能需要 2 到 30 秒，具体取决于结果树的数量。词法条目对性能几乎没有影响。

另一个问题是，在开头加载（25MB）语法+词典可能需要一分钟。

从我在文献中可以找到的，用于解析这种语法（Earley 或 CKY）的算法的运行时间应该与语法的大小成线性关系，并与输入标记列表的大小成三次关系。我对 NLTK 的经验表明，歧义是最损害性能的因素，而不是语法的绝对大小。

所以现在我正在寻找一个 CFG 解析器来替换 NLTK。我一直在考虑PLY，但我不知道它是否支持 CFG 中的特征结构，这在我的情况下是必需的，而且我看到的示例似乎做了很多程序解析，而不仅仅是指定语法。任何人都可以向我展示一个支持功能结构和使用声明性语法的 PLY 示例吗？

我也可以使用任何其他可以有效地完成我需要的解析器。Python 接口是可取的，但不是绝对必要的。

python parsing nlp grammar nltk

2010-12-28T01:06:15.977

0 投票

6 回答

93016 浏览

python - 使用 NLTK 的 FreqDist

python 中的NLTK有一个函数FreqDist，它可以为您提供文本中单词的频率。我试图将我的文本作为参数传递，但结果是以下形式：

[' ', 'e', 'a', 'o', 'n', 'i', 't', 'r', 's', 'l', 'd', 'h', 'c', 'y', 'b', 'u', 'g', '\n', 'm', 'p', 'w', 'f', ',', 'v', '.', "'", 'k', 'B', '"', 'M', 'H', '9', 'C', '-', 'N', 'S', '1', 'A', 'G', 'P', 'T', 'W', '[', ']', '(', ')', '0', '7', 'E', 'J', 'O', 'R', 'j', 'x']

而在NLTK网站的示例中，结果是整个单词而不仅仅是字母。我这样做：

你知道我有什么错吗？谢谢！

python nlp nltk

2011-01-08T16:12:46.687

问题标签 [nltk]

Reference