我在 html 文件中有一些报告。我需要将它们放在excel中并进行一些更改,所以我认为我可以使用powershell预先进行这些更改。有些行在固定的位置,有些则不是,所以我需要通过让脚本识别模式来删除它们。
从顶部开始的固定线路:12-14、17、19、25-27、30-32、40-42 从底部开始的固定线路:3-13、48-60
我需要查找和删除的模式是:
<td align="center">random string</td>
<td align="left">random string</td>
<td align="left">random string</td>
<td align="left">random string</td>
<td align="right">random string</td>
对于我发现的固定线路,我可以这样做:
(gc $maindir\Report23.HTML) | ? {(12..14) -notcontains $_.ReadCount} | out-file $maindir\Report23b.HTML
它在删除第 12-14 行时起作用,但我需要将其余的固定行号放在同一命令中,我似乎无法弄清楚如何。输出文件的文件大小也是原始文件的两倍,我觉得这很奇怪。我尝试使用 set-content 生成接近原始文件大小但在某些部分破坏文本编码的文件。
我不知道如何去识别模式虽然......