-1

我正在尝试确定给定的 URL 是否是任何类型的事件。事件是指事件,例如conference,summitconvention。这是我为它准备的初步算法:

我发现了以下(查看末尾)令牌,如果它们在页面的内容中(我使用第三方库从 HTML 中查找内容),那么我将其标记为事件。当然,这并不止于此。我为每个令牌分配权重,权重表示 - 这个令牌可以说明给定 url 是一个事件的强度。例如,如果我conference在内容中找到,它会更有信心告诉我这是一个事件,而不是registration- 这也可能经常出现在其他类型的文章中。

所以,我计算每篇文章的分数如下:总和(内容中令牌的频率*其权重)。然后如果这个分数是> EVENT_THRESHOLD那么我将文章标记为事件。这种方法的问题是:如果我得到,假设出现 20 次“事件”(信心不足,即权重低),分数会跳跃并打破EVENT_THRESHOLD并将文章标记为事件。有没有更好的方法来实现这一点?我希望我不会重新发明轮子。谢谢。PS我不是数据科学人:(

活动代币:

("event", 0.4),
("workshop", 1.0),
("registration", 0.4),
("register", 0.3), 
("conference", 1.0),
("tickets", 1.0), 
("summit", 0.5), 
("speaker", 0.5),
("training", 0.5),
("session", 0.4),
("convention", 1.0),
("webinar", 1.0),
("duration", 0.6)
4

1 回答 1

2

你肯定是在重新发明轮子。如果你想让你的生活变得简单,最好的办法是看看朴素贝叶斯模型。它与您的模型非常相似,但具有统计基础。

基本思想是,您为每种类型的事件学习先验概率P(conference),这基本上是类中文档的分数conference。此外,您计算特定事件的页面包含单词的概率,例如,registration计算为conference包含该单词的页面的分数P(registration|conference)。注意:如果不包含该单词,则需要合并逆概率1-P(registration|conference) 所有概率的乘积为您提供页面属于某个事件类别的(非标准化)概率。

如果你考虑的话 registrationconference

conference文档概率的概率{registration}

P(registration|conference)* (1-P(conference | conference) )*P(conference)

从本文件估计的概率是

P(registration|conference)= 1
P(conference | conference) =1 

但是,您可以使用更多算法,例如多类 SVM、决策树......

于 2016-03-08T18:38:18.270 回答