问题标签 [nltk]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

6812 问题

0 投票

3 回答

13990 浏览

python - 将文档分类

我在 Postgres 数据库中存储了大约 30 万个文档，这些文档带有主题类别（总共大约 150 个类别）的标签。我还有另外 150k 个文档还没有类别。我试图找到以编程方式对它们进行分类的最佳方法。

我一直在探索NLTK及其朴素贝叶斯分类器。似乎是一个很好的起点（如果您可以为此任务提出更好的分类算法，我会全力以赴）。

我的问题是我没有足够的 RAM 来一次在所有 150 个类别/300k 文档上训练 NaiveBayesClassifier（5 个类别的训练使用 8GB）。此外，当我在更多类别上训练时，分类器的准确率似乎会下降（2 个类别的准确率为 90%，5 个类别为 81%，10 个类别为 61%）。

我是否应该一次只训练 5 个类别的分类器，然后通过分类器运行所有 150k 文档以查看是否有匹配项？似乎这会起作用，除了会有很多误报，其中与任何类别都不真正匹配的文档会被分类器硬塞进去，只是因为它是可用的最佳匹配......有吗？一种为分类器提供“以上都不是”选项的方法，以防文档不适合任何类别？

这是我的测试课http://gist.github.com/451880

2010-06-24T19:56:42.323

0 投票

3 回答

23314 浏览

python - 不同长度向量的余弦相似度？

我正在尝试使用 TF-IDF将文档分类。我已经计算了一些文档的 tf_idf，但是现在当我尝试计算其中两个文档之间的余弦相似度时，我得到一个回溯说：

切片向量以便 len(u)==len(v) 是正确的方法吗？我认为余弦相似性适用于不同长度的向量。

我正在使用这个功能：

另外——向量中 tf_idf 值的顺序重要吗？是否应该对它们进行排序——或者它对这个计算不重要？

python nlp similarity nltk tf-idf

2010-06-25T20:27:51.190

0 投票

1 回答

4952 浏览

python - NLTK 有依赖解析的工具吗？

我正在构建一个 NLP 应用程序，并且在我的大部分解析工作中一直使用斯坦福解析器，但我想开始使用 Python。

到目前为止，NLTK 似乎是最好的选择，但我不知道如何解析语法依赖。即这是来自斯坦福解析器的一个例子。我希望能够使用原始句子“我正在切换到 Python。”中的 Python 在 NTLK 中生成它：

谁能给我一个正确的方向来解析语法依赖？

python nlp nltk

2010-06-27T00:11:58.547

0 投票

4 回答

50149 浏览

python - NLTK 和语言检测

如何使用 NLTK 检测文本是用什么语言编写的？

我见过的例子 use nltk.detect，但是当我在我的 mac 上安装它时，我找不到这个包。

python nlp nltk detection

2010-07-05T21:30:32.630

0 投票

1 回答

1479 浏览

java - 我们如何从java运行python脚本（使用nltk和scrapy）

我在我的项目中编写了使用 scrapy、nltk 和 simplejson 的 python 脚本，但我需要从 java 运行它们，因为我的导师想要将它们部署在服务器上，而我做这件事的时间非常少。我看了一眼运行时。 java和jython中的exec()，不用说从java运行系统命令看起来也不简单。

所以我想知道是否从 java 作为系统命令运行 python 脚本 - 'python example.py' 使用 runtime.exec() 或者使用 jython 会更简单，实际上可行，或者是否有更简单的解决方法。它会也很高兴知道是否有人使用 Jython 运行了使用来自 java 的 nltk 的 python 代码，以及他们是否遇到任何问题。请帮助我，因为我必须尽快这样做。欢迎对此提出任何想法和建议。

提前致谢！！

java python jython nltk scrapy

2010-07-13T07:24:50.107

0 投票

3 回答

10505 浏览

nltk - 用于命名实体识别的免费标记语料库

我正在寻找一个免费的标记语料库，用于训练命名实体识别的系统。我发现的大多数（比如纽约时报）都很贵而且不开放。任何人都可以帮忙吗？

nltk corpus named-entity-recognition tagged-corpus

2010-07-25T17:27:43.830

0 投票

1 回答

3017 浏览

python - 使用 Python/NLTK 提取一组单词，然后将其与标准英语词典进行比较

我有：

这直接来自 NLTK 手册。我接下来要做的是与vocab一组详尽的英语单词（如 OED）进行比较，并提取差异——一组 Finnegans Wake 单词，这些单词没有，也可能永远不会出现在 OED 中。我更像是一个口头上的人，而不是一个数学导向的人，所以我还没有弄清楚如何做到这一点，而且手册中关于我实际上不想做的事情的细节太多了。不过，我假设它只是一两行代码。

python text set nlp nltk

2010-08-06T22:04:00.197

0 投票

2 回答

9212 浏览

python - 使用 NLTK 检测英语动词时态

我正在寻找一种方法，在过去、现在和将来时态中给定英文文本计数动词短语。现在我正在使用NLTK，做一个 POS (Part-Of-Speech) 标记，然后数说 'VBD' 来获得过去时态。不过这还不够准确，所以我想我需要更进一步并使用分块，然后分析 VP-chunks 的特定时态模式。有什么存在的吗？任何可能有帮助的进一步阅读？NLTK 书主要关注 NP-chunks，我可以找到很少的关于 VP-chunks 的信息。

python nlp nltk

2010-08-08T11:31:14.743

0 投票

4 回答

5168 浏览

nlp - 我可以使用 NLTK 来确定评论是正面的还是负面的？

你能给我看一个简单的例子吗，使用http://www.nltk.org/code来确定一个关于快乐或不安情绪的字符串？

nlp nltk

2010-08-11T22:25:15.567

0 投票

1 回答

5880 浏览

python - 在 nltk 中打断/分解复杂和复合句子

有没有办法在 nltk 或其他自然语言处理库中将复杂的句子分解成简单的句子？

例如：

当太阳落山，凉风吹来时，公园真是太棒了==>太阳落山了。一阵凉风吹来。公园真是太棒了。

python nlp nltk

2010-08-17T10:22:29.413

1 2 3 4 5 6 7 8 9 10

问题标签 [nltk]

Reference