text-processing - Google 图书的热门段落功能是如何开发的？

Question

我很好奇是否有人理解、知道或可以向我指出有关 Google 如何创建其流行的段落块功能的综合文献或源代码。但是，如果您知道任何其他可以执行相同操作的应用程序，请也发布您的答案。

如果你不知道我在写什么，这里有一个通俗段落示例的链接。当您查看Modeling the legal decision process for information technology applications ... By Georgios N. Yannopoulos一书的概述时，您会看到如下内容：

热门段落

...方向，不确定。我们还没有解决，因为我们没有预料到意外情况发生时会引发的问题；公园里的某种程度的和平是要牺牲还是保护那些以使用这些东西为乐趣或兴趣的孩子。当未设想的情况确实出现时，我们会直面所涉及的问题，然后可以通过在相互竞争的利益中以最能满足我们的方式进行选择来解决问题。在做... ‎ 第86 页

出现在 1968-2003 年的 15 本书中

这将是一个适合“机械”法理学的世界。显然，这个世界不是我们的世界；人类立法者不可能对未来可能带来的所有可能的情况组合有这样的了解。这种无法预测的情况带来了目标的相对不确定性。当我们足够大胆地制定一些一般的行为规则（例如，禁止车辆进入公园的规则）时，在这种情况下使用的语言会确定任何事物都必须满足的必要条件...... ‎ 第86 页

出现在 1968-2000 年的 8 本书中

更多的

它必须是一个密集的模式匹配过程。我只能想到 n-gram 模型、文本语料库、自动抄袭检测。但是，有时 n-gram 是用于预测序列中下一个项目的概率模型，并且文本语料库（据我所知）是手动创建的。而且，在这种特殊情况下，流行的段落可能会有很多单词。

我真的迷路了。如果我想创建这样的功能，我应该如何或从哪里开始？此外，在您的回复中包括最适合这些东西的编程语言：F# 或任何其他功能语言、PERL、Python、Java...（我自己也成为 F# 粉丝）

PS：有人可以包含标签自动抄袭检测吗，因为我不能

score 6 · Accepted Answer

阅读开发流行段落的 Google 研究人员 Kolak 和 Schilit 的这篇 ACM 论文。还有一些来自德克萨斯大学奥斯汀分校的 Baldridge 和 Lease 教授的 MapReduce 课程的相关幻灯片。

score 0 · Accepted Answer

在我查看的小样本中，看起来所有选择的段落都是内联或块引用。只是一个猜测，但也许 Google 图书会查找格式和引文中的引号/差异，然后使用书目的解析版本将引用与来源相关联。样式手册万岁。

这种方法显然对检测抄袭没有帮助，如果语料库不是保留文本格式的格式，也无济于事。

score 0 · Accepted Answer

如果您知道哪些书在引用或引用其他书，则无需查看所有可能的书，只需查看相互引用的书即可。如果是科学参考文献，行号和页码通常包含在引用中，或者可以在书末的参考书目中找到，那么谷歌可能只解析这些信息吗？

谷歌学者当然有关于从论文引用到论文的信息，也可能从一本书到另一本书。

text-processing - Google 图书的热门段落功能是如何开发的？

3 回答 3

Related

Reference