问题标签 [document-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
618 浏览

nlp - 文件分类

请向我推荐一个分类器,该分类器根据下面提到的要求对文档进行分类。

我有一组要分类的文件。对于每个分类标签,我都有一组特定于该类标签的术语。

0 投票
1 回答
238 浏览

data-mining - 寻求从文档分类开始的书籍和文章参考

我有兴趣做一个关于文档分类的项目,并且一直在寻找可能对与此相关的文本挖掘中的理论部分有用的书籍,或者描述从训练数据与分类(带有子类别)文档到的过程的文章示例预测文档类别的系统。似乎有一些(相当昂贵的!)标题可用,但这些是会议论文集,其中包含关于较小的非常具体的主题的文章。有人可以从数据挖掘文献中推荐书籍,为文本挖掘项目提供良好的理论基础,特别是文档分类或概述此过程的文章?

0 投票
1 回答
4288 浏览

machine-learning - 用于文本分类的词性 (POS) 标签特征选择

我有使用斯坦福词性标注器获得的词性标注句子。例如:

/DT岛/NN是/VBD很/RB美/JJ./。I/PRP爱/VBP吧/PRP./.

(xml格式也可以)

任何人都可以解释如何从这个 POS 标签句子中执行特征选择,并使用机器学习方法将它们转换为用于文本分类的特征向量。

0 投票
2 回答
2260 浏览

algorithm - 使用标签对文档进行分类

我有大量要分类的文档(主要是 pdf 和 doc),因此我可以根据某些标签搜索它们。这些标签可以是我自己的(我将标签放在文档中)或从文本中提取。

我刚刚看到一篇与此相关的帖子(Classify data using Apache Mahout),但也许还有更简单的东西。

0 投票
1 回答
1234 浏览

data-mining - 文本分类工具

我对学习文本分类很感兴趣,所以正在阅读该理论。下一步是做事,因此我正在寻找不同的工具。一些链接指向WEKA,但是Mallet似乎更适合此任务,但没有人链接到此工具。如果想从事一个“严肃”的项目,有什么理由远离 Mallet 吗?我能够使用 Mallet 快速训练一些分类器并对其进行测试,而使用 WEKA 在使用过滤器将我的文本文件转换为以其中文本类别命名的地图后,我遇到了标签“消失”的问题。

0 投票
2 回答
465 浏览

cluster-analysis - 文本分类,包括预处理

如果时间不是一个因素,并且我们不知道有多少类,那么哪种是文档分类的最佳方法?

0 投票
1 回答
1253 浏览

classification - SVMlight 是否输出分类分数?

我需要知道 SVMlight 是否输出分类分数。我在任何地方都找不到它。我知道例如 libSVM 就可以了。thx

0 投票
1 回答
1731 浏览

nlp - 如何使用 reuters-21578 数据集和 svm.net 进行文本分类?

我刚刚开始了一个文本分类的应用程序,我已经阅读了很多关于这个主题的论文,但是直到现在我不知道如何开始,我觉得我没有得到完整的图像。我已经获得了训练数据集并阅读了它的描述,并获得了 SVM 算法 (SVM.Net) 的一个很好的实现,但我不知道如何在这个实现中使用该数据集。我知道我应该从数据集的文本中提取特征并将这些特征用作 SVM 的输入,所以任何人都可以告诉我有关如何提取文本特征并将它们用作 SVM 算法的输入的详细教程,然后使用这个算法对新文本进行分类?如果有一个关于使用 SVM 进行文本分类的完整示例,那就太好了。

任何帮助,将不胜感激。提前致谢。

0 投票
1 回答
2683 浏览

bayesian - 如何使用朴素贝叶斯实现 TF_IDF 特征加权

我正在尝试实现用于情感分析的朴素贝叶斯分类器。我计划使用 TF-IDF 加权度量。我现在只是有点卡住了。NB 一般使用词(特征)频率来寻找最大似然。那么如何在朴素贝叶斯中引入 TF-IDF 加权度量呢?

0 投票
6 回答
826 浏览

algorithm - 按心情分句

让我们从一个简单的问题开始。假设我有一个 350 字符的句子,并且想将句子放入“好心情”桶或“坏心情”桶中。

设计一个算法来存储句子的最佳方法是什么?