我有几个 html 页面,每个页面都有许多遵循给定模式的帖子,其中包含许多不同的信息,其中包括一个明确的 url 以及相关的名称和日期。我想在单独的列中生成一个包含日期 + 名称 + url 的表格,并忽略文档中的其余文本(数据和 html 格式)。
我正在考虑使用 OpenOffice 及其正则表达式函数来执行此操作,但我不知道如何从 html 到表格的实际提取(我熟悉搜索和替换,但不确定是否有办法进行提取; Jan Dvorak 对如何从 Open Office 中的随机图像 <img> 标签中提取文件名的问题的第三条评论反对它)。
在 OpenOffice 或任何其他工具中,有没有一种很好的方法来提取文本?