我很好奇是否有人理解、知道或可以向我指出有关 Google 如何创建其流行的段落块功能的综合文献或源代码。但是,如果您知道任何其他可以执行相同操作的应用程序,请也发布您的答案。
如果你不知道我在写什么,这里有一个通俗段落示例的链接。当您查看Modeling the legal decision process for information technology applications ... By Georgios N. Yannopoulos一书的概述时,您会看到如下内容:
热门段落
...方向,不确定。我们还没有解决,因为我们没有预料到意外情况发生时会引发的问题;公园里的某种程度的和平是要牺牲还是保护那些以使用这些东西为乐趣或兴趣的孩子。当未设想的情况确实出现时,我们会直面所涉及的问题,然后可以通过在相互竞争的利益中以最能满足我们的方式进行选择来解决问题。在做... 第86 页
这将是一个适合“机械”法理学的世界。显然,这个世界不是我们的世界;人类立法者不可能对未来可能带来的所有可能的情况组合有这样的了解。这种无法预测的情况带来了目标的相对不确定性。当我们足够大胆地制定一些一般的行为规则(例如,禁止车辆进入公园的规则)时,在这种情况下使用的语言会确定任何事物都必须满足的必要条件...... 第86 页
它必须是一个密集的模式匹配过程。我只能想到 n-gram 模型、文本语料库、自动抄袭检测。但是,有时 n-gram 是用于预测序列中下一个项目的概率模型,并且文本语料库(据我所知)是手动创建的。而且,在这种特殊情况下,流行的段落可能会有很多单词。
我真的迷路了。如果我想创建这样的功能,我应该如何或从哪里开始?此外,在您的回复中包括最适合这些东西的编程语言:F# 或任何其他功能语言、PERL、Python、Java...(我自己也成为 F# 粉丝)
PS:有人可以包含标签自动抄袭检测吗,因为我不能