假设您应该在线监控品牌“ONE”。可以使用哪些算法将有关品牌 ONE 的页面与包含常用词 ONE 的页面分开?
我在想也许贝叶斯可以工作,但还有其他方法可以做到这一点吗?
假设您应该在线监控品牌“ONE”。可以使用哪些算法将有关品牌 ONE 的页面与包含常用词 ONE 的页面分开?
我在想也许贝叶斯可以工作,但还有其他方法可以做到这一点吗?
If it's not really unique word then I would suggest the next approach.
Let's imagine that our key-word is Java. Then there are at least 2 categories: about programming and about tourism in Indonesia. We are interested in the first one.
Lets take a small text about Java (maybe from books or from wikipedia). Then lets assume some threshold (for example, 0.7). Then let's compare our text with different pages (one of the fastest ways is using Classic Vector Space Model algorithm, you can implement it yourself or find it's implementation in google). Then compare results with your threshold and filter weak results.
About using Bayes algorithm: it's not bad approach imo. But you should 'teach' your algorithm very carefully because several bad inputs can spoil the whole work.
Let me explain. Input for your Bayes algorithm is text with your brand-word. Output is probability [0 .. 1] that your text is about your brand but not about something else. In practice this algorithm very often gives you results near 0 or near 1 and it rare returns values between 0.2 and 0.8. It means that the algorithm is very sensitive to small variations and 1 or 2 words in text of 100 words can seriously affect the result.
您可能希望将 ONE 品牌与其产品、执行官或您监控中的挑战者联系起来。
您正在寻找的术语是概念学习或概念提取。“一”这个词出现在许多页面中,但大多数情况下它指的是一个作为数量的概念。很少提到ONE品牌的概念。(另一个经常使用的例子是 SUN,如星体物体 sun,或名为 Sun 的公司)。
我知道Ari Rappoport对这个主题有很多研究。实际上,这可以归结为 mouviciel 的回答,但 Ari 的研究也是关于如何自动推断出需要查找哪些相关词以区分 one-as-number 和 one-the-brand。
我已经通过将 Wikipedia 视为一个巨大的本体(其中每个超链接是源节点和结束节点之间的关系)来处理事情。
编辑:一个非常粗略的算法,带有“Java”示例:
您将使用的距离是非常主观的,必须进行一些调整以满足您的需求。你可能也很难获得每个页面的“核心”,因为解析 HTML 将是一个主要的痛苦。
我会建议一个无监督的方法来解决这个问题:
获取尽可能多的在正确上下文中描述“ONE”的文档并创建一个语料库。
根据标准英语语料库在该语料库中查找统计上不可能的短语。
这个网站给出了一个很好的例子
http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc。
如您所见,ipod、powerpc 等品牌特定术语很容易被过滤掉。
提取这些内容后,您可以使用 “SIP”和“ONE”之类的查询创建 Google 警报或类似的等效项(如果 google 警报过于简单)来监控新文章。
当然,鉴于这种方法是无监督的,它可能效率不高,但应该可以完成工作。
一种不同的方法可能是在Google Directory中查找该页面,该目录具有“按主题将网络组织成类别”。您可能会使用每个页面的类别信息来确定它的内容。