0

导航到此处并搜索“下载所有馆藏”,您将到达我要抓取的文件的链接(标题和单元格内容)。

当我传入表格链接(而不是表格内容)时,使用 open-uri 或 Roo 返回页面源。

使用 Ruby,我怎样才能读取这个文件的内容?理想情况下,我想提取内容并将原始文件保存为只读格式。

注意:我已经在使用 Mechanize/Nokogiri 进行抓取,并希望使用上述链接的 Excel 文件来补充/验证我的抓取。

4

1 回答 1

2

只要确保使用Roo::Spreadsheetand not Roo::Excelx,因为只能 Roo::Spreadsheet直接打开远程 URL:

url = 'https://www.spdrs.com/site-content/xls/TOTL_All_Holdings.xls?fund=TOTL&docname=All+Holdings&onyx_code1=1286&onyx_code2='
sheet = Roo::Spreadsheet.open(url)
于 2015-02-27T23:42:48.437 回答