基本上我想做的就是将整个 html 表导出到 .txt 文件(记事本文档)。
到目前为止,我已经学会了如何指示浏览器找到带有表格的 html 页面。
require 'rubygems'
require 'hpricot'
require "watir-webdriver"
url = "http://www.example.com"
browser = Watir::Browser.new
browser.goto url
在 cmd 中运行上述内容后,我现在可以在浏览器中看到 html 表。
这就是我卡住的地方。我如何使用 Watir
- 找到标签
- 收集 and 中的所有内容(即 html 和文本)。
- 将这些结果提取到 .txt 文件(记事本文档)并将其保存在特定文件夹中。
仅供参考,html表看起来像这样......
<table border="1" cellpadding="2">
<tr>
<th> Address </th>
<th> Council tax band </th>
<th> Annual council tax </th>
</tr>
<tr>
<td> 2, STONELEIGH AVENUE, COVENTRY, CV5 6BZ </td>
<td align="center"> F </td>
<td align="center"> £2125 </td>
</tr>
.......上面的行重复了很多次......
</table>
然后桌子关闭。
所以重新限制我的情况。我可以使用 Watir 将浏览器导航到包含 html 表的页面,但我的问题是我不确定如何将结果(标签中的所有内容 - 包括 html)提取到 .txt 文件,然后保存该 .txt文件到我的电脑上。
我更愿意在使用 Watir 时采取更小的步骤。我对此很了解,因此我只想学习如何提取表格并将我提取的所有内容保存到 .txt 文件中。我在网上看到了几个使用 hpricot 的例子。但是,大多数示例似乎都遗漏了详细说明如何将数组(如果这是正确的方法)输出到 .txt 文件中的代码。
您能否通过演示如何编写一段简单的代码来提供帮助,该代码将提取 html 表(以及所有内容,包括 ,以及介于两者之间的所有内容)到 .txt 记事本文件?
非常感谢您的时间。