问题标签 [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将文档分类
我在 Postgres 数据库中存储了大约 30 万个文档,这些文档带有主题类别(总共大约 150 个类别)的标签。我还有另外 150k 个文档还没有类别。我试图找到以编程方式对它们进行分类的最佳方法。
我一直在探索NLTK及其朴素贝叶斯分类器。似乎是一个很好的起点(如果您可以为此任务提出更好的分类算法,我会全力以赴)。
我的问题是我没有足够的 RAM 来一次在所有 150 个类别/300k 文档上训练 NaiveBayesClassifier(5 个类别的训练使用 8GB)。此外,当我在更多类别上训练时,分类器的准确率似乎会下降(2 个类别的准确率为 90%,5 个类别为 81%,10 个类别为 61%)。
我是否应该一次只训练 5 个类别的分类器,然后通过分类器运行所有 150k 文档以查看是否有匹配项?似乎这会起作用,除了会有很多误报,其中与任何类别都不真正匹配的文档会被分类器硬塞进去,只是因为它是可用的最佳匹配......有吗?一种为分类器提供“以上都不是”选项的方法,以防文档不适合任何类别?
python - 不同长度向量的余弦相似度?
我正在尝试使用 TF-IDF将文档分类。我已经计算了一些文档的 tf_idf,但是现在当我尝试计算其中两个文档之间的余弦相似度时,我得到一个回溯说:
切片向量以便 len(u)==len(v) 是正确的方法吗?我认为余弦相似性适用于不同长度的向量。
我正在使用这个功能:
另外——向量中 tf_idf 值的顺序重要吗?是否应该对它们进行排序——或者它对这个计算不重要?
python - NLTK 有依赖解析的工具吗?
我正在构建一个 NLP 应用程序,并且在我的大部分解析工作中一直使用斯坦福解析器,但我想开始使用 Python。
到目前为止,NLTK 似乎是最好的选择,但我不知道如何解析语法依赖。即这是来自斯坦福解析器的一个例子。我希望能够使用原始句子“我正在切换到 Python。”中的 Python 在 NTLK 中生成它:
谁能给我一个正确的方向来解析语法依赖?
python - NLTK 和语言检测
如何使用 NLTK 检测文本是用什么语言编写的?
我见过的例子 use nltk.detect
,但是当我在我的 mac 上安装它时,我找不到这个包。
java - 我们如何从java运行python脚本(使用nltk和scrapy)
我在我的项目中编写了使用 scrapy、nltk 和 simplejson 的 python 脚本,但我需要从 java 运行它们,因为我的导师想要将它们部署在服务器上,而我做这件事的时间非常少。我看了一眼运行时。 java和jython中的exec(),不用说从java运行系统命令看起来也不简单。
所以我想知道是否从 java 作为系统命令运行 python 脚本 - 'python example.py' 使用 runtime.exec() 或者使用 jython 会更简单,实际上可行,或者是否有更简单的解决方法。它会也很高兴知道是否有人使用 Jython 运行了使用来自 java 的 nltk 的 python 代码,以及他们是否遇到任何问题。请帮助我,因为我必须尽快这样做。欢迎对此提出任何想法和建议。
提前致谢!!
nltk - 用于命名实体识别的免费标记语料库
我正在寻找一个免费的标记语料库,用于训练命名实体识别的系统。我发现的大多数(比如纽约时报)都很贵而且不开放。任何人都可以帮忙吗?
python - 使用 Python/NLTK 提取一组单词,然后将其与标准英语词典进行比较
我有:
这直接来自 NLTK 手册。我接下来要做的是与vocab
一组详尽的英语单词(如 OED)进行比较,并提取差异——一组 Finnegans Wake 单词,这些单词没有,也可能永远不会出现在 OED 中。我更像是一个口头上的人,而不是一个数学导向的人,所以我还没有弄清楚如何做到这一点,而且手册中关于我实际上不想做的事情的细节太多了。不过,我假设它只是一两行代码。
nlp - 我可以使用 NLTK 来确定评论是正面的还是负面的?
你能给我看一个简单的例子吗,使用http://www.nltk.org/code来确定一个关于快乐或不安情绪的字符串?
python - 在 nltk 中打断/分解复杂和复合句子
有没有办法在 nltk 或其他自然语言处理库中将复杂的句子分解成简单的句子?
例如:
当太阳落山,凉风吹来时,公园真是太棒了==>太阳落山了。一阵凉风吹来。公园真是太棒了。