sample - 大量样本文件

Question

有谁知道我在哪里可以找到各种主题的大量示例文档库？我正在寻找至少几千个文档（Office 或 PDF 应该没问题）以测试一些算法......这些文档应该有一些共同点 - 例如，一千个与编程相关的文档，另外一千个与生态学等等……

有谁知道我在哪里可以得到它？

score 6 · Accepted Answer

您是否尝试过使用维基百科？创建一个脚本：

调用http://en.wikipedia.org/wiki/Special:Random获取随机页面
遵循生成的重定向，将 ?printable=yes 附加到 url 的末尾（以便删除布局杂物） - 在这两个步骤中使用 wget 或等效的，它会为您执行重定向。
通过 html->pdf 转换器管道生成的 html 内容。
重复 1000 次。

那应该为您提供各种各样的内容。

score 2 · Accepted Answer

您可以使用 Yahoo Search API 上的高级搜索来指定您要查找的文档类型。

http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web

如果您想要大量的word文档，请指定您想要的文档类型，然后根据一些预先选择的关键字进行搜索。那应该会给你一堆文件。

您还可以通过指定文件类型（来自随机列表）来抓取高级 Google 搜索并以这种方式获取文档链接，例如：

http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf

score 0 · Accepted Answer

在 internetzzz上？

编辑：我？没有帮助？:)

import mechanize, urllib, os

template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N"
links = []

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]
for i in xrange(0, 30, 10):
    br.open(template % i)
    links.extend((link.url for link in br.links(url_regex="^http.+pdf$"))
for url in links:
    urllib.urlretrieve(url, os.path.basename(url))

sample - 大量样本文件

3 回答 3

Related

Reference