问题标签 [document-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1334 浏览

machine-learning - 文档分类的质心算法,阈值检测

我有一组与特定域相关的文档,并根据该集合训练了质心分类器。我想要做的是,我将为分类器提供来自不同领域的文档,并希望确定它们与受过训练的领域的相关程度。我可以为此使用余弦相似度来获得一个数值,但我的问题是确定阈值的最佳方法是什么?

为此,我可以从不同的域下载多个文档并检查它们的相似度分数以确定阈值。但这是要走的路吗,在统计上听起来不错吗?其他方法是什么?

0 投票
2 回答
5672 浏览

machine-learning - 计算文档分类的 IDF(逆文档频率)

我对在文档分类中计算 IDF(逆文档频率)有疑问。我有不止一个类别,其中包含多个用于培训的文档。我正在使用以下公式计算文档中每个术语的 IDF:

我的问题是:

  1. “语料库中的文档总数”是什么意思?文档是来自当前类别还是来自所有可用类别?
  2. “文档匹配项的数量”是什么意思?匹配文档的术语是来自当前类别还是来自所有可用类别?
0 投票
3 回答
5006 浏览

algorithm - 哪种分类算法可用于文档分类?

嘿,这是我的问题,

给定一组文档,我需要将每个文档分配给预定义的类别。

我打算使用 n-gram 方法来表示每个文档的文本内容,然后在我拥有的训练数据上训练一个 SVM 分类器。
如果我错过了理解的东西,请纠正我。

现在的问题是类别应该是动态的。这意味着,我的分类器应该处理具有新类别的新训练数据。

例如,如果我训练了一个分类器将给定文档分类为 A 类、B 类或 C 类,然后我得到了 D 类的新训练数据。我应该能够通过向分类器提供“D 类”的新训练数据。

总而言之,我不想将旧的训练数据(具有 3 个类别)和新的训练数据(具有新的/未见过的类别)结合起来并再次训练我的分类器。我想即时训练我的分类器

这可以用 SVM 实现吗?如果没有,你能推荐我几种分类算法吗?或任何可以帮助我的书/论文。

提前致谢。

0 投票
1 回答
1591 浏览

algorithm - 文档特征向量表示

我正在构建一个文档分类器来对文档进行分类。

因此,第一步是将每个文档表示为“特征向量”以用于训练目的。

经过一番研究,我发现我可以使用 Bag of Words 方法或 N-gram 方法将文档表示为向量。

使用 OCR 检索每个文档(扫描的 pdf 和图像)中的文本,因此某些单词包含错误。而且我没有关于这些文档中使用的语言的先前知识(不能使用词干)。

据我了解,我必须使用 n-gram 方法。还是有其他方法来表示文档?

如果有人可以将我链接到 N-Gram 指南以便获得更清晰的图片并了解其工作原理,我也将不胜感激。

提前致谢

0 投票
1 回答
375 浏览

machine-learning - 关于使用独立数据集通过 weka 验证文本分类的问题

我正在尝试使用 weka 对垃圾邮件和非垃圾邮件进行分类。

将 100 条带标签的垃圾邮件消息和另外 100 条带标签的非垃圾邮件消息作为训练数据集,我将stringtowordvector其用作过滤器来训练分类器。结果crossValidateModel非常好。但是我想使用独立的测试集来评估分类器,以确保将任何其他味精从训练集中分类出来是可靠的。

我的问题:

我也必须使用stringtowordvector测试数据集来创建一个独立的 .arff 文件,该文件独立于训练 arff 文件。两个数据集中出现的同一个词分别具有 2 个不同的属性索引,在这些2 个.arff 文件。例如,单词“money”10在训练 .arff 文件中具有矩阵索引,但在测试 .arff 文件中它被索引为50th属性。

我担心已经训练好的分类器会与 2 个数据集中的所有这些词不匹配,因为它们具有不同的矩阵索引。更具体地说,{1 1,2 1,3 5}训练中的向量 .arff 代表"i want to to to to to....",但在测试 .arff 文件中,这个相同的向量代表"money does not not not not ....."。那么,这个验证怎么能可靠呢?

使用crossValidateModel时,它使用来自同一个 arff 文件的实例,因此 weka 必须将索引与单词正确匹配。我的目标是用大量标记的数据集训练它,然后用它来分类任何单个未标记的味精。每次我想对单个味精进行分类时,我都必须将此味精转换为一个 .arff 文件,该文件具有与训练 .arff 文件完全不同的属性列表和矩阵索引。(我没有使用 windows 工具,我在我的程序中使用了 weka .jar api)。有什么帮助吗?

0 投票
1 回答
4029 浏览

svm - SVM线性核中TF-IDF和TF的区别

因为 IDF 是一个常数。一维中的所有值乘以一个常数。

在 SVM 线性内核中,结果会有所不同吗?

0 投票
2 回答
337 浏览

machine-learning - 精度或召回率高?

假设我正在使用“A”和“B”两种方法评估一些文本分类研究项目。使用方法“A”时,精度提高了 x%,而使用“B”时,召回率提高了 x%。我怎样才能说 A 或 B 方法更好?

0 投票
3 回答
340 浏览

statistics - 如何进行分类

我正在尝试使用 Weka 将文档分类为两个类别(类别 1 和类别 2)。

我收集了一个训练集,其中包含属于这两个类别的 600 个文档,要分类的文档总数为 1,000,000。

因此,为了执行分类,我应用了 StringToWordVector 过滤器。我从过滤器中将以下内容设置为真: - IDF 变换 - TF 变形 - OutputWordCounts

我想问一些关于这个过程的问题。

1)我应该使用多少个文​​档作为训练集,以避免过度拟合?

2)应用过滤器后,我得到了训练集中的单词列表。我是否必须删除它们中的任何一个才能在分类器中获得更好的结果,或者它不起作用?

3)作为分类方法,我通常选择naiveBayes,但我得到的结果如下:

如果我使用 SMO,结果是:

那么在文档分类中,哪一个是“更好”的分类器?哪一个更适合小型数据集,比如我拥有的那个?我读过 naiveBayes 在大数据集上表现更好,但如果我增加我的数据集,会导致“过度拟合”效应吗?另外,关于 Kappa 统计,是否有任何可接受的阈值,或者在这种情况下并不重要,因为只有两个类别?

很抱歉这篇长文,但我已经尝试了一周来改进分类结果,但没有成功,尽管我试图获得更适合每个类别的文档。

0 投票
3 回答
16461 浏览

machine-learning - 文档分类的监督潜在狄利克雷分配?

我在某些组中有一堆已经被人类分类的文件。

是否有修改版本的 lda 可以用来训练模型,然后用它对未知文档进行分类?

0 投票
1 回答
213 浏览

machine-learning - 使用 KNN 算法的监督项加权方法

是否可以将监督术语权重模型与 KNN 分类器一起使用?我想知道如何表示测试文档的向量,只要测试文档是未标记的并且监督术语权重模型需要标记文档来计算权重。有人可以帮忙吗?