问题标签 [document-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3208 浏览

svm - 使用 LSA/SVD 进行文档分类

我正在尝试使用支持向量机 (SVM) 进行文档分类。我拥有的文件是电子邮件的集合。我有大约 3000 个文档来训练 SVM 分类器,并且有一个大约 700 个需要分类的测试文档集。

我最初使用二进制 DocumentTermMatrix 作为 SVM 训练的输入。使用测试数据进行分类的准确率约为 81%。在删除几个停用词后使用 DocumentTermMatrix。

由于我想提高这个模型的准确性,我尝试使用基于 LSA/SVD 的降维,并使用生成的降维因子作为分类模型的输入(我尝试使用原始包中的 20、50、100 和 200 个奇异值〜3000字)。在每种情况下,分类的性能都变差了。(使用 LSA/SVD 的另一个原因是为了克服具有 65 个级别的响应变量之一的记忆问题)。

有人可以就如何提高 LSA/SVD 分类的性能提供一些指导吗?我意识到这是没有任何特定数据或代码的一般问题,但希望专家提供一些关于从哪里开始调试的意见。

仅供参考,我正在使用 R 进行文本预处理(包:tm、雪球、lsa)和构建分类模型(包:kernelsvm)

谢谢你。

0 投票
1 回答
236 浏览

document-classification - 您如何在二进制文档分类中找到最具辨别力的术语?

我想使用特征选择来查找文档中对二元分类任务最有用的术语。

我一直在环顾四周:
这提到了互信息和卡方检验指标
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html

MATLAB 也有许多函数:
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
MATLAB 中的特征选择 在
上述情况中,relieff 和 rankfeatures 看起来很有希望。

我不知道我的数据是否服从正态分布。关于哪种技术表现最好的任何想法?你有什么更新的方法可以推荐吗?重点是提高分类精度。

谢谢!

0 投票
1 回答
673 浏览

java - 使用 Lingpipe 进行词级语言模型

我一直在尝试让一个词级语言模型在 lingpipe 上工作。我遇到的所有示例和教程都显示了 character-n-gram 模型。如何使用 lingpipe 训练单词级模型,然后使用该模型在其他文档上进行测试?

此外,我注意到 TokenizedLM 不可序列化。我有没有办法保存它并在以后加载它而不必每次都重新训练?

最后,是否有任何其他框架/工具可以让我在没有任何编码的情况下做到这一点?

0 投票
2 回答
3180 浏览

text - 新闻文章数据集

我正在做一个新闻分类项目。基本上,该系统将根据预定义的主题(例如体育、政治、国际)对新闻文章进行分类。为了构建系统,我需要免费的数据集来训练系统。

到目前为止,经过几个小时的谷歌搜索和来自这里的链接,我能找到的唯一合适的数据集是这个。虽然这将有足够的希望,但我想我会尝试找到更多。

请注意,我想要的数据集:

  1. 包含完整的新闻文章,而不仅仅是标题
  2. 是英文的
  3. .txt 格式,不是 XML 或 db

有谁能够帮我?

0 投票
3 回答
3447 浏览

python - 抑制 libsvm (python) 中的输出

我正在使用 python 中的 libsvm (svmutils) 来执行分类任务。分类器是准确的。但是,我得到这样的输出:

有什么办法可以抑制这个对话框?分类器非常好用,我只是好奇。另外,"Accuracy"代表什么?为什么在我的情况下这是 0%?(数据在 80 个维度上不重叠。总共 4 个类。我也对其进行了适当的规范化。)

0 投票
1 回答
730 浏览

text - 需要体育、娱乐、健康等类别和所有子类别的训练数据

我正在尝试使用 ML 中的分类算法,并正在寻找一些语料库来训练我的模型以区分不同的类别,如运动、天气、技术、足球、板球等,

我需要一些关于在哪里可以找到这些类别的数据集的指示,

我的另一个选择是爬取维基百科以获取 30 多个类别的数据,但我想要一些头脑风暴和意见,如果有更好的方法来做到这一点。

编辑

使用这些类别的词袋方法训练模型测试 - 根据网页的内容将新/未知网站分类到这些预定义类别。

0 投票
2 回答
1860 浏览

machine-learning - 使用朴素贝叶斯的文本分类

我正在使用朴素贝叶斯做文本分类机器学习问题。我将每个单词作为一个特征。我已经能够实现它并且我得到了很好的准确性。

我可以使用单词元组作为特征吗?

例如,如果有两个课程,政治和体育。政府这个词可能出现在他们俩身上。然而,在政治中我可以有一个元组(政府、民主),而在体育课上我可以有一个元组(政府、运动员)。所以,如果一个新的文本文章是政治的,元组(政府,民主)的概率比元组(政府,运动员)的概率更大。

我问这是因为这样做我违反了朴素贝叶斯问题的独立性假设,因为我也将单个单词视为特征。

另外,我正在考虑为特征添加权重。例如,3 元组特征的权重将低于 4 元组特征。

从理论上讲,这两种方法是否不会改变朴素贝叶斯分类器的独立性假设?另外,我还没有开始使用我提到的方法,但这会提高准确性吗?我认为准确度可能不会提高,但获得相同准确度所需的训练数据量会更少。

0 投票
1 回答
183 浏览

machine-learning - 如何使用 weka 将电子邮件数据表示为基于讨论主题的分类输入?

重复:如何在 weka 中表示用于分类的文本?

如果我的数据是电子邮件,即文本数据,分类器的输入是什么?我需要考虑在电子邮件中设置哪些属性/功能来根据讨论主题进行分类?

0 投票
1 回答
1890 浏览

php - 使用 NaiveBayes 实现期望最大化算法

我已经实现了具有良好文本过滤的 Naive-Bayes 文档分类,并且我已经接受了具有良好准确性的统计结果,我需要使用 EM 算法来增强我的结果。

但我不知道我是否可以将 EM 算法与 Naive-Bayes 结果应用或将算法应用于数据并重新开始,因此我可以比较结果

在这两种情况下,我都需要了解这个问题上的 EM 算法,因为这真的让我很困惑

任何解释清楚的文件将不胜感激

0 投票
3 回答
1651 浏览

algorithm - 用于对食谱进行编程分类的算法

我对基于配方的各种属性的统计分析以编程方式对配方进行分类感兴趣。换句话说,我想将食谱分类为BreakfastLunchDinner没有Dessert任何用户输入。

我可用的属性是:

  1. 食谱标题(如鸡肉沙拉
  2. 配方描述(描述配方的任意文本)
  3. 烹饪方法(准备这个食谱的步骤)
  4. 准备和烹饪时间
  5. 配方中的每种成分及其数量

好消息是我有一个样本集,其中包含大约 10,000 个已经分类的食谱,我可以使用这些数据来教授我的算法。我的想法是寻找模式,比如糖浆这个词在统计上出现在早餐食谱中的频率是否更高,或者任何需要超过1 杯糖的食谱有 90% 的可能性是甜点。我想如果我从多个维度分析配方,然后适当调整权重,我可以得到相当准确的东西。

在解决这个问题时,有哪些好的算法可以研究?像 k-NN 这样的东西会有所帮助,还是有更适合这项任务的东西?