python - 无法找到被 robots.txt 阻止的互联网页面

Question

问题：寻找大学数学讲座的答案和练习。赫尔辛基

实际问题

用 .com 列出Disallowrobots.txt中的网站列表
在 (1) 处列出包含 *.pdf 文件的站点列表
在 (2) 处列出在 pdf 文件中包含单词“analyysi”的站点

实际问题的建议

问题 3：制作一个从 pdf 文件中抓取数据的编译器

问题

您如何搜索已注册的 .com 网站？
你将如何通过 Python 的 defaultdict 和 BeautifulSoap 解决实际问题 1 和 2？

score 6 · Accepted Answer

我试图在互联网上找到每个网站都有一个 pdf 文件，其中包含“Analyysi”这个词

不是您的问题的答案，但是：请尊重网站所有者不被索引的愿望。

score 4 · Accepted Answer

你的问题有问题。

关于 (2)，您错误地假设您可以在网络服务器上找到所有 PDF 文件。由于多种原因，这是不可能的。第一个原因是并非所有文件都可以参考。第二个原因是即使它们被引用，引用本身也可能对您是不可见的。最后，还有动态生成的 PDF 资源。这意味着在您要求它们之前它们不存在。而且由于它们取决于您的输入，因此它们的数量是无限的。

由于几乎相同的原因，问题 3 是错误的。特别是，仅当您在查询中使用“analyysi”时，生成的 PDF 才可能包含“analyysi”一词。例如http://example.com/makePDF.cgi?analyysi

score 3 · Accepted Answer

如果我了解您的要求，您基本上必须搜索所有可能的站点，以查看哪些站点符合您的条件。无论您使用什么工具，我都没有看到任何更快或更有效的解决方案。

score 1 · Accepted Answer

如果我理解正确，那么如果不扫描整个互联网，我看不出这是怎么可能的。您正在寻找不在 Google 上的互联网页面？网络上没有每个站点的数据库，如果它们被搜索引擎索引...

您实际上需要索引整个网络，然后浏览每个站点并检查它们是否在谷歌上。

如果这与一个站点或网络有关，我也很困惑，因为您的问题似乎在两者之间切换。

score 0 · Accepted Answer

您的意思是您的讲座在您大学的内部网的网页上，并且您希望能够从您的大学的内部网外部访问该页面？

我假设为了访问您的 Uni 的 Intranet，您必须输入密码，并且 Google 不会索引 Uni 的任何 Intranet 页面——这是 Intranet 的本质。

如果上述所有假设都是正确的，那么您只需将您的 pdf 文件托管在您大学内部网之外的网站上。最简单的方法是创建一个博客（不涉及任何成本，而且非常简单快捷），然后在那里发布您的 pdf 文件。

然后，Google 将为您的页面编制索引，并在您输入时从您的 pdf 中“抓取数据”，这意味着您的 pdf 文件中的文本将是可搜索的。

score 0 · Accepted Answer

我概述：

1. 法律

“问题在于执行该法律！原则上很容易，实际上很昂贵！” 来源

“没有法律规定必须遵守 /robots.txt，也不构成网站所有者和用户之间具有约束力的合同，但拥有/robots.txt在法律案件中可能具有相关性。 ”来源

2. 练习

disallow filetype:txt

3.理论上可能？

python - 无法找到被 robots.txt 阻止的互联网页面

6 回答 6

Related

Reference