我正在尝试编写一个小的 bash 脚本:
- -wget 每隔 [x] 分钟从网络访问一个 html 文件
- - 使用一些 linux 实用程序来查找最近两次更新之间文件的差异
- - 使用 sed 修改检测到新文本的行
我遇到的问题是 HTML 文件使用内联 CSS 来格式化表格,但页面的实际代码存储在一个长行中。
实际上,我需要一个 Linux 实用程序,它可以扫描一行代码,找到每个标签之间的每个文本实例,并将这些实例插入到它们自己的行中。这应该使扫描文本更容易。我尝试过的每个工具都以每行为基础进行搜索,但由于整个代码都存储在一行中,因此无法满足我的需求。