1

我有一些需要编辑的 HTML 文件。我需要在文件中找到一些值并清理它的形式。

例如我有 html 文件:

    .
    .
    诊断
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”

    配置
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
    .
    .

我需要找到并清理

    诊断
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”
      对齐=“正确”

来自我的 HTML 文件。

多么简单又快速的方法呢?

谢谢。

4

1 回答 1

2

HTML::TreeBuilder查看一个用于在 Perl 中解析 HTML的模块,例如。这不是一项非常简单的任务,但链接的文档有一些示例。我建议您尝试一下,如果遇到问题,请提出具体问题。

另一种方法是使用正则表达式。通常不建议在解析 HTML 时使用这种方法——用正则表达式可靠地解析任意 HTML 是不可能的。 但是,如果您只是想从具有可预测格式的文件中快速删除一种东西,那么它可能是一个不错的选择。只要确保你的问题真的像你想象的那样简单,然后再走这条路。

于 2013-02-18T15:00:33.043 回答