我正在尝试确定给定的 URL 是否是任何类型的事件。事件是指事件,例如conference
,summit
等convention
。这是我为它准备的初步算法:
我发现了以下(查看末尾)令牌,如果它们在页面的内容中(我使用第三方库从 HTML 中查找内容),那么我将其标记为事件。当然,这并不止于此。我为每个令牌分配权重,权重表示 - 这个令牌可以说明给定 url 是一个事件的强度。例如,如果我conference
在内容中找到,它会更有信心告诉我这是一个事件,而不是registration
- 这也可能经常出现在其他类型的文章中。
所以,我计算每篇文章的分数如下:总和(内容中令牌的频率*其权重)。然后如果这个分数是> EVENT_THRESHOLD
那么我将文章标记为事件。这种方法的问题是:如果我得到,假设出现 20 次“事件”(信心不足,即权重低),分数会跳跃并打破EVENT_THRESHOLD
并将文章标记为事件。有没有更好的方法来实现这一点?我希望我不会重新发明轮子。谢谢。PS我不是数据科学人:(
活动代币:
("event", 0.4),
("workshop", 1.0),
("registration", 0.4),
("register", 0.3),
("conference", 1.0),
("tickets", 1.0),
("summit", 0.5),
("speaker", 0.5),
("training", 0.5),
("session", 0.4),
("convention", 1.0),
("webinar", 1.0),
("duration", 0.6)