我一直在试验 Jericho HTML Parser 和 Selenium IDE,目的是从 HTML 内的特定位置跨多个页面提取文本。
我还没有找到一个简单的例子来说明如何做到这一点,我也不知道 java。
我想在一个文件夹中找到第一个表、第 4 行、第 1 个 div 中的所有 HTML 页面的任何文本字符串:
</table>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I want</div></td></tr>
</table>
并将所选文本打印到列表中的 txt 文件,如下所示:
The Text I want
Another Text I want
所有源文件都存储在本地,并且可能包含错误的 HTML,因此认为 Jericho 可能最适合此目的。但是,我很高兴学习任何方法来达到预期的结果。