regex - 从 HTML 页面上的多个帖子中提取三个文本项到 csv 或类似文件中？

Question

我有几个 html 页面，每个页面都有许多遵循给定模式的帖子，其中包含许多不同的信息，其中包括一个明确的 url 以及相关的名称和日期。我想在单独的列中生成一个包含日期 + 名称 + url 的表格，并忽略文档中的其余文本（数据和 html 格式）。

我正在考虑使用 OpenOffice 及其正则表达式函数来执行此操作，但我不知道如何从 html 到表格的实际提取（我熟悉搜索和替换，但不确定是否有办法进行提取; Jan Dvorak 对如何从 Open Office 中的随机图像 <img> 标签中提取文件名的问题的第三条评论反对它）。

在 OpenOffice 或任何其他工具中，有没有一种很好的方法来提取文本？

score 0 · Accepted Answer

在 OpenOffice 或任何其他工具中，有没有一种很好的方法来提取文本？

由于您正在解析 HTML，因此使用 HTML 解析引擎会更容易。例如，在 PHP 中，您可以使用几行简单的代码从页面中提取所有链接或所有图像。

// Create DOM from URL or file
$html = file_get_html('path and file name');

// Find all images 
foreach($html->find('img') as $element) 
       echo $element->src . '<br>';

// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>';

如果您有一些关于被拉取的值以及它们如何存储在文件中的附加信息，则可以进一步完善这一点。

regex - 从 HTML 页面上的多个帖子中提取三个文本项到 csv 或类似文件中？

1 回答 1

Related

Reference