java - 对文本进行分类

Question

我正在尝试确定给定的 URL 是否是任何类型的事件。事件是指事件，例如conference,summit等convention。这是我为它准备的初步算法：

我发现了以下（查看末尾）令牌，如果它们在页面的内容中（我使用第三方库从 HTML 中查找内容），那么我将其标记为事件。当然，这并不止于此。我为每个令牌分配权重，权重表示 - 这个令牌可以说明给定 url 是一个事件的强度。例如，如果我conference在内容中找到，它会更有信心告诉我这是一个事件，而不是registration- 这也可能经常出现在其他类型的文章中。

所以，我计算每篇文章的分数如下：总和（内容中令牌的频率*其权重）。然后如果这个分数是> EVENT_THRESHOLD那么我将文章标记为事件。这种方法的问题是：如果我得到，假设出现 20 次“事件”（信心不足，即权重低），分数会跳跃并打破EVENT_THRESHOLD并将文章标记为事件。有没有更好的方法来实现这一点？我希望我不会重新发明轮子。谢谢。PS我不是数据科学人:(

活动代币：

("event", 0.4),
("workshop", 1.0),
("registration", 0.4),
("register", 0.3), 
("conference", 1.0),
("tickets", 1.0), 
("summit", 0.5), 
("speaker", 0.5),
("training", 0.5),
("session", 0.4),
("convention", 1.0),
("webinar", 1.0),
("duration", 0.6)

score 2 · Accepted Answer

你肯定是在重新发明轮子。如果你想让你的生活变得简单，最好的办法是看看朴素贝叶斯模型。它与您的模型非常相似，但具有统计基础。

基本思想是，您为每种类型的事件学习先验概率P(conference)，这基本上是类中文档的分数conference。此外，您计算特定事件的页面包含单词的概率，例如，registration计算为conference包含该单词的页面的分数P(registration|conference)。注意：如果不包含该单词，则需要合并逆概率1-P(registration|conference) 所有概率的乘积为您提供页面属于某个事件类别的（非标准化）概率。

如果你考虑的话 registration，conference

conference文档概率的概率{registration} 是

P(registration|conference)* (1-P(conference | conference) )*P(conference)

从本文件估计的概率是

P(registration|conference)= 1
P(conference | conference) =1

但是，您可以使用更多算法，例如多类 SVM、决策树......

java - 对文本进行分类

1 回答 1

Related

Reference