这不是https://stackoverflow.com/questions/12234084/batch-html-file-processing的副本,因为我不限于 Mac 机器。我想用 Linux 来做这件事。
无论如何,我想删除一系列标签,例如:
<div id="p-person" role="function="">
*some text here*
</div>
也许用它们代替
<b>.
即使正则表达式可以完成这项工作,我也想学习一种更精细的方法,解析 dom,因为正则表达式不适用于更复杂的情况。