0

我熟悉数据挖掘技术,但不太熟悉文本挖掘或 Web 挖掘。

这是一个简单的任务:将文章分类为一组类别。让我们假设,我提取了文章的文本内容并对其进行了处理。

您如何以及从何处获得类别 - 预定义标签?是否可以插入一个本体、分类法并根据需要进行细化?分类任务将是一个多标签分类。

在这种情况下,我们是否使用 n-gram 进行近似匹配?

目前我有从文本中提取的主题和命名实体。我可以为此使用 Vowpal Wabbit 吗?

4

1 回答 1

1

您如何以及从何处获得类别 - 预定义标签?

有许多带有分类和本体信息的基准文本数据集。Wordnet是文本分析研究中使用的一种流行的基准数据集。是第一篇专注于使用分类法在 Wordnet 上进行文本分析的语义相似性的论文。. 是一篇关于类似目标的更新的好论文。

是否可以插入一个本体、分类法并根据需要进行细化?

是的。有一个研究子领域处理基于存在于概念(在本例中为文本文档中的概念)之间的分类学和本体论得出语义相似性。本文对将本体和分类法引入文档间相似性测量的技术进行概述和比较研究。//根据需要进行粒度化// - 是的,您可以这样做,通过达到控制粒度的新相似性度量。许多研究工作都与此有关。这篇论文是最近的一个例子。

在这种情况下,我们是否使用 n-gram 进行近似匹配?

是的,可能,但上述论文使用了从文档中建模概念的粒度较小的方法。他们中的大多数使用 tf-idf 而不是 n-gram 术语。

于 2014-05-26T11:45:42.473 回答