问题标签 [nltk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4544 浏览

python - Python 中 NLTK 工具包的默认分块器是什么?

我正在使用他们的默认 POS 标记和默认标记化..这似乎就足够了。我也想要他们的默认分块器。

我正在阅读 NLTK 工具包书,但他们似乎没有默认的分块器?

0 投票
1 回答
1873 浏览

nlp - 使用 NLTK 进行分块/文本解析

我正在尝试解析一些文本并绘制​​图表,就像你会写一个句子一样。我是 NLTK 的新手,正在尝试在 NLTK 中找到可以帮助我完成此任务的内容。到目前为止,我已经看到nltk.ne_chunknltk.pos_tag。我发现它们不是很有帮助,而且我找不到任何好的在线文档。

我也尝试过使用LancasterStemmer,但我不完全理解它的作用或应该如何使用它,或者它为什么存在。

有人可以帮我解决这个问题吗?没有任何指路明灯,我真的很茫然,很沮丧。

提前致谢

0 投票
5 回答
3807 浏览

python - 如何使单词成为一个类别。(自然语言处理)

我的目标是仅通过分析这两个句子来返回FOODSPORTS 。你怎么能那样做?

我熟悉 NLP 和 Wordnet。但是有没有更高级/实用/现代的技术?

有没有什么东西可以自动为你分类单词,分成“级别”?

更重要的是,这个过程的技术术语是什么?

0 投票
12 回答
123113 浏览

nlp - 词形还原与词干提取有什么区别?

我什么时候使用每个?

另外... NLTK 词形还原是否依赖于词性?如果是这样不是更准确吗?

0 投票
3 回答
6716 浏览

python - Python 和 .NET 集成

我目前正在研究 python,因为我真的很喜欢文本解析功能和 nltk 库,但传统上我是一个 .Net/C# 程序员。我不认为 IronPython 对我来说是一个集成点,因为我使用的是 NLTK,并且可能需要将该库的端口移植到 CLR。我看了一点Python for .NET,想知道这是否是一个不错的起点。有没有办法将 python 类编组到 C# 中?另外,这个解决方案还在使用吗?更好的是,有人做过吗?我正在考虑的一件事是使用持久性介质作为中间人(在 Python 中解析,在 MongoDB 中存储,在 .NET 中运行站点)。

0 投票
1 回答
8768 浏览

python - NLTK/pyNLTK 可以“按语言”工作(即非英语),如何工作?

如何告诉 NLTK 以特定语言处理文本?

偶尔我会编写一个专门的 NLP 例程,在非英语(但仍然是印欧语)文本域上进行 POS 标记、标记等。

这个问题似乎只针对不同的语料库,而不是代码/设置的变化: POS tagging in German

或者,是否有任何专门用于 python 的希伯来语/西班牙语/波兰语 NLP 模块?

0 投票
7 回答
215147 浏览

math - 什么是“熵和信息增益”?

我正在阅读这本书 ( NLTK ),它令人困惑。 定义

熵是每个标签的概率乘以同一标签的对数概率的总和

如何在文本挖掘方面应用最大熵?有人可以给我一个简单,简单的例子(视觉)吗?

0 投票
2 回答
8791 浏览

python - NLTK - 如何找出从 python 中安装的语料库?

我正在尝试加载一些我使用 NLTK 安装程序安装的语料库,但我得到了:

但是在下载管理器 ( nltk.download()) 中,machado 包被标记为已安装,并且我有一个nltk_data/corpus/machado文件夹。

我如何从 python 解释器内部看到已安装的语料库是什么?

另外,我应该安装什么包来使用这个方法? http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html

我找不到操作指南中nltk.examples提到的模块。

0 投票
2 回答
1368 浏览

nlp - 训练集——pos / neg / 中性句的比例

我将 Twitter 消息手动标记为正面、负面、中性。我试图理解是否有一些逻辑可以用来识别训练集的消息比例应该是积极/消极和中性?

因此,例如,如果我正在训练一个带有 1000 条推特消息的朴素贝叶斯分类器,那么 pos : neg :neut 的比例应该是 33 % : 33% : 33% 还是应该是 25 % : 25 % : 50 %

从逻辑上讲,在我看来,我训练(即为中性提供更多样本)系统会更好地识别中性句子,然后是它们是积极的还是消极的——这是真的吗?或者我在这里遗漏了一些理论?

谢谢拉胡尔

0 投票
3 回答
1586 浏览

nlp - 如何选择特征选择算法?- 建议

是否有我可以阅读的研究论文/书可以告诉我手头的问题哪种特征选择算法最有效。

我试图简单地将 twitter 消息识别为 pos/neg(开始)。我从基于频率的特征选择开始(从 NLTK 书开始),但很快意识到对于类似的问题,不同的人选择了不同的算法

虽然我可以尝试基于频率、互信息、信息增益和各种其他算法,但列表似乎无穷无尽。我想知道是否有一种有效的方法,然后反复试验。

任何建议