1

有谁知道我在哪里可以找到各种主题的大量示例文档库?我正在寻找至少几千个文档(Office 或 PDF 应该没问题)以测试一些算法......这些文档应该有一些共同点 - 例如,一千个与编程相关的文档,另外一千个与生态学等等……

有谁知道我在哪里可以得到它?

4

3 回答 3

6

您是否尝试过使用维基百科?创建一个脚本:

  1. 调用http://en.wikipedia.org/wiki/Special:Random获取随机页面

  2. 遵循生成的重定向,将 ?printable=yes 附加到 url 的末尾(以便删除布局杂物) - 在这两个步骤中使用 wget 或等效的,它会为您执行重定向。

  3. 通过 html->pdf 转换器管道生成的 html 内容。

  4. 重复 1000 次。

那应该为您提供各种各样的内容。

于 2009-07-14T22:31:17.093 回答
2

您可以使用 Yahoo Search API 上的高级搜索来指定您要查找的文档类型。

http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web

如果您想要大量的word文档,请指定您想要的文档类型,然后根据一些预先选择的关键字进行搜索。那应该会给你一堆文件。

您还可以通过指定文件类型(来自随机列表)来抓取高级 Google 搜索并以这种方式获取文档链接,例如:

http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf

于 2009-07-14T22:44:19.810 回答
0

internetzzz上

编辑:我?没有帮助?:)

import mechanize, urllib, os

template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N"
links = []

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]
for i in xrange(0, 30, 10):
    br.open(template % i)
    links.extend((link.url for link in br.links(url_regex="^http.+pdf$"))
for url in links:
    urllib.urlretrieve(url, os.path.basename(url))
于 2009-07-14T22:25:40.847 回答