0

我正在尝试编写一个小的 bash 脚本:

  • -wget 每隔 [x] 分钟从网络访问一个 html 文件
  • - 使用一些 linux 实用程序来查找最近两次更新之间文件的差异
  • - 使用 sed 修改检测到新文本的行

我遇到的问题是 HTML 文件使用内联 CSS 来格式化表格,但页面的实际代码存储在一个长行中。

实际上,我需要一个 Linux 实用程序,它可以扫描一行代码,找到每个标签之间的每个文本实例,并将这些实例插入到它们自己的行中。这应该使扫描文本更容易。我尝试过的每个工具都以每行为基础进行搜索,但由于整个代码都存储在一行中,因此无法满足我的需求。

4

1 回答 1

1

您可以先将内容分成几行,方法是>>\n. 这将分解每个 HTML 标记末尾的文档。

也许您甚至不需要这样做:如果您使用 awk 的RS变量将记录分隔符定义为“>”而不是换行符。有关使用 RS 的示例,请参阅此页面:http ://www.thegeekstuff.com/2010/01/8-powerful-awk-built-in-variables-fs-ofs-rs-ors-nr-nf-filename- fnr/

于 2013-02-10T00:45:40.480 回答