问题:寻找大学数学讲座的答案和练习。赫尔辛基
实际问题
- 用 .com 列出
Disallow
robots.txt中的网站列表 - 在 (1) 处列出包含 *.pdf 文件的站点列表
- 在 (2) 处列出在 pdf 文件中包含单词“analyysi”的站点
实际问题的建议
- 问题 3:制作一个从 pdf 文件中抓取数据的编译器
问题
- 您如何搜索已注册的 .com 网站?
- 你将如何通过 Python 的 defaultdict 和 BeautifulSoap 解决实际问题 1 和 2?
问题:寻找大学数学讲座的答案和练习。赫尔辛基
实际问题
Disallow
robots.txt中的网站列表实际问题的建议
问题
我试图在互联网上找到每个网站都有一个 pdf 文件,其中包含“Analyysi”这个词
不是您的问题的答案,但是:请尊重网站所有者不被索引的愿望。
你的问题有问题。
关于 (2),您错误地假设您可以在网络服务器上找到所有 PDF 文件。由于多种原因,这是不可能的。第一个原因是并非所有文件都可以参考。第二个原因是即使它们被引用,引用本身也可能对您是不可见的。最后,还有动态生成的 PDF 资源。这意味着在您要求它们之前它们不存在。而且由于它们取决于您的输入,因此它们的数量是无限的。
由于几乎相同的原因,问题 3 是错误的。特别是,仅当您在查询中使用“analyysi”时,生成的 PDF 才可能包含“analyysi”一词。例如http://example.com/makePDF.cgi?analyysi
如果我了解您的要求,您基本上必须搜索所有可能的站点,以查看哪些站点符合您的条件。无论您使用什么工具,我都没有看到任何更快或更有效的解决方案。
如果我理解正确,那么如果不扫描整个互联网,我看不出这是怎么可能的。您正在寻找不在 Google 上的互联网页面?网络上没有每个站点的数据库,如果它们被搜索引擎索引...
您实际上需要索引整个网络,然后浏览每个站点并检查它们是否在谷歌上。
如果这与一个站点或网络有关,我也很困惑,因为您的问题似乎在两者之间切换。
您的意思是您的讲座在您大学的内部网的网页上,并且您希望能够从您的大学的内部网外部访问该页面?
我假设为了访问您的 Uni 的 Intranet,您必须输入密码,并且 Google 不会索引 Uni 的任何 Intranet 页面——这是 Intranet 的本质。
如果上述所有假设都是正确的,那么您只需将您的 pdf 文件托管在您大学内部网之外的网站上。最简单的方法是创建一个博客(不涉及任何成本,而且非常简单快捷),然后在那里发布您的 pdf 文件。
然后,Google 将为您的页面编制索引,并在您输入时从您的 pdf 中“抓取数据”,这意味着您的 pdf 文件中的文本将是可搜索的。