问题标签 [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将 NLTK 与 Google App Engine 结合使用
有人使用 NLTK 和 GAE 吗?从这个线程看来,GAE 不支持 NLTK(需要特殊的安装技巧。)你知道任何其他轻量级的类似 Python 模块吗?谢谢。
python - 使用FreqDist,python总结单词频率的数量
如何使用 FreqDist 中的 fd.items() 总结词频数?
例如,如果每个单词most_freq_w
出现 10 次,结果应该是100
!!!我不需要文本中所有单词的数量,只需要最常用的 10 个
python - 如何创建语料库或语料库以在 NLTK 中对文本进行分类?
我正在构建一个分类器文本。
1、有10个类别,每个类别有更多的相关关键词。2,现在,我有一个文本。我需要将其归为第 3 类,我使用 NLTK,但我不知道如何创建最佳训练语料库,语料库
有人可以帮我提取特征的方法吗,...谢谢你
python - 在嵌入式元组/字符串上操作,python
假设我有一个元组格式的标记文本(单词,标签)。我想将其转换为字符串,以便对标签进行一些更改。我下面的函数只看到文本中的最后一句话,我想有一些我无法意识到的明显和愚蠢的错误,所以请帮助使其适用于整个文本。
PS对于那些有兴趣的人,这里描述了tuple2str函数
编辑:现在我应该将它转换回具有相同格式的元组。我该怎么做?
上面的一个转换成整个元组,但我需要嵌入一个(与输入(tpl
)相同)
EDIT2:好吧,可能值得发布整个代码:
python - 计算一系列项目,python
任务是定义一个函数,该函数count_vowels(text)
接受一个字符串text
,计算文本中的元音(使用 Python 字典进行计数),并将元音频率信息作为字符串返回。例子:
到目前为止,我想出了:
那么,我的代码有什么问题,如何获得与示例中相同的结果?
python - PyPy 可以与 NLTK 一起使用吗?
PyPy 是否可以与 NLTK 一起使用,如果可以,是否有明显的性能改进,比如贝叶斯分类器?
当我们这样做时,是否有任何其他 python 环境(shedskin 等)提供比 cpython 更好的 nlkt 性能?
python - 试图将 MEGAM 用作 NLTK ClassifierBasedPOSTagger?
我目前正在尝试使用 NLTK 构建一个通用(或尽可能通用)的 POS 标记器。我已经涉足了 brown 和 treebank 语料库进行培训,但可能会选择 treebank 语料库。
边走边学,我发现分类器词性标注器是最准确的。最大实体分类器应该是最准确的,但我发现它使用了太多内存(和处理时间),以至于我必须显着减少训练数据集,因此最终结果不如使用默认的朴素贝叶斯分类器准确。
有人建议我使用 MEGAM。NLTK 对 MEGAM 有一些支持,但我发现的所有示例都是针对通用分类器(例如,使用单词特征向量的文本分类器),而不是更具体的词性标注器。无需重新创建我自己的 POS 特征提取器和编译器(即,我更喜欢使用 NLTK 中已有的那个),我如何使用 MEGAM MaxEnt 分类器?IE。我怎样才能将它放在一些现有的 MaxEnt 代码中,这些代码类似于:
collections - 我可以从 NLTK 中的字符串集合创建语料库吗?
有没有一种方法可以创建语料库而不必在文件中包含项目。例如,我想操纵从网络上抓取的推文或段落。我可以做类似的事情吗
或者
目的是使用现有的 NLTK 功能来操作语料库。我检查TextCollection
过,但似乎它不处理类别。
python - 高效的上下文无关语法解析器,最好是 Python 友好的
我需要为我的一个项目解析一小部分英语,描述为具有(1级)特征结构(示例)的无上下文语法,我需要有效地做到这一点。
现在我正在使用NLTK的解析器,它产生正确的输出,但速度很慢。对于我的约 450 条相当模糊的非词汇规则和 50 万个词汇条目的语法,解析简单句子可能需要 2 到 30 秒,具体取决于结果树的数量。词法条目对性能几乎没有影响。
另一个问题是,在开头加载(25MB)语法+词典可能需要一分钟。
从我在文献中可以找到的,用于解析这种语法(Earley 或 CKY)的算法的运行时间应该与语法的大小成线性关系,并与输入标记列表的大小成三次关系。我对 NLTK 的经验表明,歧义是最损害性能的因素,而不是语法的绝对大小。
所以现在我正在寻找一个 CFG 解析器来替换 NLTK。我一直在考虑PLY,但我不知道它是否支持 CFG 中的特征结构,这在我的情况下是必需的,而且我看到的示例似乎做了很多程序解析,而不仅仅是指定语法。任何人都可以向我展示一个支持功能结构和使用声明性语法的 PLY 示例吗?
我也可以使用任何其他可以有效地完成我需要的解析器。Python 接口是可取的,但不是绝对必要的。
python - 使用 NLTK 的 FreqDist
python 中的NLTK有一个函数FreqDist,它可以为您提供文本中单词的频率。我试图将我的文本作为参数传递,但结果是以下形式:
[' ', 'e', 'a', 'o', 'n', 'i', 't', 'r', 's', 'l', 'd', 'h', 'c', 'y', 'b', 'u', 'g', '\n', 'm', 'p', 'w', 'f', ',', 'v', '.', "'", 'k', 'B', '"', 'M', 'H', '9', 'C', '-', 'N', 'S', '1', 'A', 'G', 'P', 'T', 'W', '[', ']', '(', ')', '0', '7', 'E', 'J', 'O', 'R', 'j', 'x']
而在NLTK网站的示例中,结果是整个单词而不仅仅是字母。我这样做:
你知道我有什么错吗?谢谢!