有谁知道我在哪里可以找到各种主题的大量示例文档库?我正在寻找至少几千个文档(Office 或 PDF 应该没问题)以测试一些算法......这些文档应该有一些共同点 - 例如,一千个与编程相关的文档,另外一千个与生态学等等……
有谁知道我在哪里可以得到它?
有谁知道我在哪里可以找到各种主题的大量示例文档库?我正在寻找至少几千个文档(Office 或 PDF 应该没问题)以测试一些算法......这些文档应该有一些共同点 - 例如,一千个与编程相关的文档,另外一千个与生态学等等……
有谁知道我在哪里可以得到它?
您是否尝试过使用维基百科?创建一个脚本:
遵循生成的重定向,将 ?printable=yes 附加到 url 的末尾(以便删除布局杂物) - 在这两个步骤中使用 wget 或等效的,它会为您执行重定向。
通过 html->pdf 转换器管道生成的 html 内容。
重复 1000 次。
那应该为您提供各种各样的内容。
您可以使用 Yahoo Search API 上的高级搜索来指定您要查找的文档类型。
http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web
如果您想要大量的word文档,请指定您想要的文档类型,然后根据一些预先选择的关键字进行搜索。那应该会给你一堆文件。
您还可以通过指定文件类型(来自随机列表)来抓取高级 Google 搜索并以这种方式获取文档链接,例如:
http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf
编辑:我?没有帮助?:)
import mechanize, urllib, os
template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N"
links = []
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]
for i in xrange(0, 30, 10):
br.open(template % i)
links.extend((link.url for link in br.links(url_regex="^http.+pdf$"))
for url in links:
urllib.urlretrieve(url, os.path.basename(url))