4

我发现 Google 的In Quotes是一个非常漂亮的应用程序,作为一名 CS 人员,我必须了解它是如何工作的。你认为它如何将新闻文章转化为特定人的引用列表?当然,有一些错误,但他们的算法似乎比简单的启发式或多个正则表达式更聪明。例如,即使在最后一段中只提到了他/她的名字,也可以将引用归因于某人。

有任何想法吗?关于这个主题的任何已知论文?

4

3 回答 3

1

很简单,它会检查单词,但它们之间可以有任何东西,只要它们仍然是有序的。“你好世界!” 将成为正则表达式 /hello [ .]* world/

于 2008-12-25T13:21:18.500 回答
0

我没有任何文件,但有一些想法。谷歌引用一组人的名言。使用 Google 新闻和其他媒体访问对他们来说很容易。

他们有另一组主题。谷歌将主题集与人员集进行匹配(两者都是有限的)。最后一组都是报价单,

如果您注意到,主题包含 1 个在引文中突出显示的单词。所以它在主题集和每组人的引用集之间存在关系。由于谷歌是信息的主人,因此很容易在所有这些集合之间建立联系。

于 2008-10-25T18:17:19.737 回答
0

对于您的问题,我没有答案,但我的建议是您直接通过Google 版主询问 Google 工程师。您可能不会很快(或根本没有)得到答案,但您会在那里得到准确的答案。

于 2008-10-25T22:45:02.410 回答