问题标签 [document-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2819 浏览

nlp - 获取指定单词的 WordNet 域名

我知道 WordNet 有域层次结构:例如运动->足球。

1) 是否可以列出所有与“sport->football”子域相关的单词?

2) 获取给定单词的域名,例如“守门员”?

它用于文档分类任务。

0 投票
2 回答
2141 浏览

machine-learning - 余弦相似度多文档聚类的数学方法

余弦相似度:通常在比较两个文档时使用。它测量两个向量之间的角度。如果该值为零,则两个向量之间的角度为 90 度,并且它们不共享任何项。如果值为 1,则两个向量除了幅度之外是相同的。当数据稀疏、不对称并且缺乏特征的相似性时,使用余弦。

当我将余弦用于两个向量(文档)时,我将根据下表获得结果

然后将其标准化到最后。然后,我将得到余弦 Cos(v1,v2)= 90%

但是,如果我有 10 份文件,这意味着我得到了

然后我必须比较结果。

有什么快速的方法吗?我怎样才能得到 10 个或更多文件的 cos。

我知道我怎样才能得到两个文件的余弦但是我怎样才能得到更多的文件呢?我想要数学方法。

0 投票
1 回答
1144 浏览

machine-learning - SKLearn 交叉验证:

我正在进行文本分类,并将处理我的训练数据中未捕获的单词,这意味着该单词应被视为未知。

有谁知道如果训练数据中不存在某个特定单词,scikit 的交叉验证是否会将其视为看不见?

或者 scikit 是否会将所有单词都视为特征,即使它不在训练集中?

0 投票
3 回答
2994 浏览

machine-learning - 当训练集包含监督分类中的一些错误数据时,我该怎么办?

我正在做一个执行文本自动分类的项目,我有很多数据集,如下所示:

正文 | 分类名称

xxxxx... | AA

yyyyy... | BB

zzzzz... | AA

然后,我将使用上面的数据集生成一个分类器,一旦有新文本出现,分类器可以用正确的 CategoryName 标记新文本(文本是自然语言,大小在 10-10000 之间)

现在,问题是,原始数据集包含一些不正确的数据,(例如 AAA 应该标记为类别 AA,但它意外标记为类别 BB),因为这些数据是手动分类的。而且我不知道哪个标签是错误的,有多少百分比是错误的,因为我无法手动查看所有数据......

所以我的问题是,我该怎么办?

  • 我可以通过某种自动方式找到错误的标签吗?
  • 新数据到来时如何提高准确率和召回率?
  • 如何评估错误数据的影响?(因为我不知道有多少百分比数据是错误的)
  • 还有其他建议吗?
0 投票
1 回答
1001 浏览

python - sklearn.feature_selection 中除 Chi-2 之外的特征选择指标

我在一些文本分类任务上尝试使用 sklearn.svm.SVC。我知道在使用 SVM 建模之前执行特征选择是一个有点可疑的努力,因为当使用完整的特征集时性能通常会达到峰值。从学术的角度来看,这仍然很有趣,可以看到不同的特征选择方法如何对特征进行不同的排序。

经过一番挖掘,我发现在 sklearn 中可用的特征选择指标的选择非常有限,即 Chi-2。我只是想知道其他常用的指标,例如 IG 和 BNS 是否已在 sklearn(或其他地方)中实现,我可以直接用作 sklearn.feature_selection.SelectKBest() 中的得分函数?

提前感谢您的友好建议。

0 投票
1 回答
806 浏览

machine-learning - 如何使用 Mallet 命令行提示报告精度和召回分数?

我正在使用 Mallet 的 MaxEnt 分类器进行文本分类。Mallet 提供了使用命令行提示报告准确性和 F1 分数的能力。

有没有办法使用命令行提示报告精度和召回分数?

0 投票
2 回答
435 浏览

classification - TFIDF:tf 实现

我正在实现一个分类工具,并正在试验各种 TF 版本:两个对数(对数调用内部/外部的校正)、标准化、增强和对数平均。显然,由这些调制的分类器准确度存在显着差异 - 高达 5%。然而,奇怪的是,我无法提前说出在给定数据集上哪个会表现得更好。我想知道我是否缺少一些工作,或者,也许有人可以分享与这些工作的经验?

0 投票
2 回答
2465 浏览

android - 如何为 weka 构建一个 arff 文件?

我是 weka 的新手,我必须从社交网络中提取状态并使用 weka 分析它们,如何构建包含这些状态的 arff 文件?weka 是否包含词干、停用词和 n-gramm 的算法,或者我必须使用其他软件在开始分类之前消除不必要的数据?以及适用于 android 和 java 的 weka 的实用程序,这个软件的使用有什么不同吗……你们有什么想法吗?

0 投票
1 回答
186 浏览

xml - 是否可以使用 SVM 来学习输入“特征矩阵”而不是“特征向量”的训练样本?

是否可以使用 SVM 来学习输入为“特征矩阵”而不是“特征向量”的训练样本?我需要通过将每个文档表示为特征矩阵来对 XML 文档进行分类。通常,特征向量用于训练 SVM 进行文本分类。但是,将 XML 文档表示为特征向量可能会导致结构信息丢失!

提前致谢!

0 投票
3 回答
6359 浏览

java - 简单的 Mahout 分类示例

我想训练 mahout 进行分类。对我来说,这个文本来自数据库,我真的不想将它们存储到文件中以进行 mahout 培训。我检查了 MIA 源代码并更改了以下代码以完成非常基本的培训任务。mahout 示例的常见问题是它们显示如何使用 20 新闻组从 cmd 提示符使用 mahout,或者代码对 Hadoop Zookeeper 等有很大的依赖关系。如果有人可以查看我的代码或指出我,我将不胜感激到一个非常简单的教程,展示如何训练模型然后使用它。

到目前为止,在下面的代码中,我永远不会过去if (best != null),因为learningAlgorithm.getBest();总是返回 null!

很抱歉发布整个代码,但没有看到任何其他选项