问题标签 [nltk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
13990 浏览

python - 将文档分类

我在 Postgres 数据库中存储了大约 30 万个文档,这些文档带​​有主题类别(总共大约 150 个类别)的标签。我还有另外 150k 个文档还没有类别。我试图找到以编程方式对它们进行分类的最佳方法。

我一直在探索NLTK及其朴素贝叶斯分类器。似乎是一个很好的起点(如果您可以为此任务提出更好的分类算法,我会全力以赴)。

我的问题是我没有足够的 RAM 来一次在所有 150 个类别/300k 文档上训练 NaiveBayesClassifier(5 个类别的训练使用 8GB)。此外,当我在更多类别上训练时,分类器的准确率似乎会下降(2 个类别的准确率为 90%,5 个类别为 81%,10 个类别为 61%)。

我是否应该一次只训练 5 个类别的分类器,然后通过分类器运行所有 150k 文档以查看是否有匹配项?似乎这会起作用,除了会有很多误报,其中与任何类别都不真正匹配的文档会被分类器硬塞进去,只是因为它是可用的最佳匹配......有吗?一种为分类器提供“以上都不是”选项的方法,以防文档不适合任何类别?

这是我的测试课http://gist.github.com/451880

0 投票
3 回答
23314 浏览

python - 不同长度向量的余弦相似度?

我正在尝试使用 TF-IDF将文档分类。我已经计算了一些文档的 tf_idf,但是现在当我尝试计算其中两个文档之间的余弦相似度时,我得到一个回溯说:

切片向量以便 len(u)==len(v) 是正确的方法吗?我认为余弦相似性适用于不同长度的向量。

我正在使用这个功能

另外——向量中 tf_idf 值的顺序重要吗?是否应该对它们进行排序——或者它对这个计算不重要?

0 投票
1 回答
4952 浏览

python - NLTK 有依赖解析的工具吗?

我正在构建一个 NLP 应用程序,并且在我的大部分解析工作中一直使用斯坦福解析器,但我想开始使用 Python。

到目前为止,NLTK 似乎是最好的选择,但我不知道如何解析语法依赖。即这是来自斯坦福解析器的一个例子。我希望能够使用原始句子“我正在切换到 Python。”中的 Python 在 NTLK 中生成它:

谁能给我一个正确的方向来解析语法依赖?

0 投票
4 回答
50149 浏览

python - NLTK 和语言检测

如何使用 NLTK 检测文本是用什么语言编写的?

我见过的例子 use nltk.detect,但是当我在我的 mac 上安装它时,我找不到这个包。

0 投票
1 回答
1479 浏览

java - 我们如何从java运行python脚本(使用nltk和scrapy)

我在我的项目中编写了使用 scrapy、nltk 和 simplejson 的 python 脚本,但我需要从 java 运行它们,因为我的导师想要将它们部署在服务器上,而我做这件事的时间非常少。我看了一眼运行时。 java和jython中的exec(),不用说从java运行系统命令看起来也不简单。

所以我想知道是否从 java 作为系统命令运行 python 脚本 - 'python example.py' 使用 runtime.exec() 或者使用 jython 会更简单,实际上可行,或者是否有更简单的解决方法。它会也很高兴知道是否有人使用 Jython 运行了使用来自 java 的 nltk 的 python 代码,以及他们是否遇到任何问题。请帮助我,因为我必须尽快这样做。欢迎对此提出任何想法和建议。

提前致谢!!

0 投票
3 回答
10505 浏览

nltk - 用于命名实体识别的免费标记语料库

我正在寻找一个免费的标记语料库,用于训练命名实体识别的系统。我发现的大多数(比如纽约时报)都很贵而且不开放。任何人都可以帮忙吗?

0 投票
1 回答
3017 浏览

python - 使用 Python/NLTK 提取一组单词,然后将其与标准英语词典进行比较

我有:

这直接来自 NLTK 手册。我接下来要做的是与vocab一组详尽的英语单词(如 OED)进行比较,并提取差异——一组 Finnegans Wake 单词,这些单词没有,也可能永远不会出现在 OED 中。我更像是一个口头上的人,而不是一个数学导向的人,所以我还没有弄清楚如何做到这一点,而且手册中关于我实际上不想做的事情的细节太多了。不过,我假设它只是一两行代码。

0 投票
2 回答
9212 浏览

python - 使用 NLTK 检测英语动词时态

我正在寻找一种方法,在过去、现在和将来时态中给定英文文本计数动词短语。现在我正在使用NLTK,做一个 POS (Part-Of-Speech) 标记,然后数说 'VBD' 来获得过去时态。不过这还不够准确,所以我想我需要更进一步并使用分块,然后分析 VP-chunks 的特定时态模式。有什么存在的吗?任何可能有帮助的进一步阅读?NLTK 书主要关注 NP-chunks,我可以找到很少的关于 VP-chunks 的信息。

0 投票
4 回答
5168 浏览

nlp - 我可以使用 NLTK 来确定评论是正面的还是负面的?

你能给我看一个简单的例子吗,使用http://www.nltk.org/code来确定一个关于快乐或不安情绪的字符串?

0 投票
1 回答
5880 浏览

python - 在 nltk 中打断/分解复杂和复合句子

有没有办法在 nltk 或其他自然语言处理库中将复杂的句子分解成简单的句子?

例如:

当太阳落山,凉风吹来时,公园真是太棒了==>太阳落山了。一阵凉风吹来。公园真是太棒了。