像统计上不可能的短语这样的东西是如何工作的?
据亚马逊称:
Amazon.com 的统计上不可能的短语或“SIP”是 Search Inside!™ 程序中书籍文本中最独特的短语。为了识别 SIP,我们的计算机会扫描 Search Inside 中所有书籍的文本!程序。如果他们发现一个短语在特定书中出现了很多次,相对于所有 Search Inside!书籍,该短语是那本书中的 SIP。
SIP 在特定书籍中不一定是不可能的,但相对于 Search Inside! 中的所有书籍,它们是不可能的。例如,一本关于税收的书籍的大多数 SIP 都与税收有关。但是因为我们按照 SIP 的不可能性分数顺序显示 SIP,所以第一个 SIP 将涉及本书比其他税务书籍更常提及的税务主题。对于小说作品,SIP 往往是独特的单词组合,通常暗示重要的情节元素。
例如,对于 Joel 的第一本书,SIP 是:泄漏抽象、抗锯齿文本、自己的狗粮、错误计数、每日构建、错误数据库、软件时间表
一个有趣的复杂情况是,这些是 2 个或 3 个单词的短语。这使事情变得更有趣,因为这些短语可以相互重叠或相互包含。