-1

问题:寻找大学数学讲座的答案和练习。赫尔辛基

实际问题

  1. 用 .com 列出Disallowrobots.txt中的网站列表
  2. 在 (1) 处列出包含 *.pdf 文件的站点列表
  3. 在 (2) 处列出在 pdf 文件中包含单词“analyysi”的站点

实际问题的建议

  1. 问题 3:制作一个从 pdf 文件中抓取数据的编译器

问题

  1. 您如何搜索已注册的 .com 网站?
  2. 你将如何通过 Python 的 defaultdict 和 BeautifulSoap 解决实际问题 1 和 2?
4

6 回答 6

6

我试图在互联网上找到每个网站都有一个 pdf 文件,其中包含“Analyysi”这个词

不是您的问题的答案,但是:请尊重网站所有者不被索引的愿望。

于 2009-06-26T12:27:16.380 回答
4

你的问题有问题。

关于 (2),您错误地假设您可以在网络服务器上找到所有 PDF 文件。由于多种原因,这是不可能的。第一个原因是并非所有文件都可以参考。第二个原因是即使它们被引用,引用本身也可能对您是不可见的。最后,还有动态生成的 PDF 资源。这意味着在您要求它们之前它们不存在。而且由于它们取决于您的输入,因此它们的数量是无限的。

由于几乎相同的原因,问题 3 是错误的。特别是,仅当您在查询中使用“analyysi”时,生成的 PDF 才可能包含“analyysi”一词。例如http://example.com/makePDF.cgi?analyysi

于 2009-06-26T12:47:27.463 回答
3

如果我了解您的要求,您基本上必须搜索所有可能的站点,以查看哪些站点符合您的条件。无论您使用什么工具,我都没有看到任何更快或更有效的解决方案。

于 2009-06-17T22:04:02.723 回答
1

如果我理解正确,那么如果不扫描整个互联网,我看不出这是怎么可能的。您正在寻找不在 Google 上的互联网页面?网络上没有每个站点的数据库,如果它们被搜索引擎索引...

您实际上需要索引整个网络,然后浏览每个站点并检查它们是否在谷歌上。

如果这与一个站点或网络有关,我也很困惑,因为您的问题似乎在两者之间切换。

于 2009-06-18T09:21:55.450 回答
0

您的意思是您的讲座在您大学的内部网的网页上,并且您希望能够从您的大学的内部网外部访问该页面?

我假设为了访问您的 Uni 的 Intranet,您必须输入密码,并且 Google 不会索引 Uni 的任何 Intranet 页面——这是 Intranet 的本质。

如果上述所有假设都是正确的,那么您只需将您的 pdf 文件托管在您大学内部网之外的网站上。最简单的方法是创建一个博客(不涉及任何成本,而且非常简单快捷),然后在那里发布您的 pdf 文件。

然后,Google 将为您的页面编制索引,并在您输入时从您的 pdf 中“抓取数据”,这意味着您的 pdf 文件中的文本将是可搜索的。

于 2009-06-18T09:37:17.930 回答
0

我概述:

1. 法律

“问题在于执行该法律!原则上很容易,实际上很昂贵!” 来源

没有法律规定必须遵守 /robots.txt,也不构成网站所有者和用户之间具有约束力的合同,拥有/robots.txt在法律案件中可能具有相关性。来源

2. 练习

disallow filetype:txt

3.理论上可能?

于 2009-07-14T21:32:04.717 回答