0

我正在使用开源网络抓取工具 Web Harvest (http://web-harvest.sourceforge.net/)。

我尝试使用的正则表达式具有“<”、“>”字符(因为我试图去除所有进入的 HTML 标记)。这会导致问题,因为元素的内容必须由格式良好的字符数据或标记组成。

我需要以某种方式逃避正则表达式,但不知道如何。

有任何想法吗?

4

1 回答 1

1

使正则表达式格式良好的 XML。尝试<&lt;>替换&gt;。同样,如果您&的正则表达式中有 ,则需要将其替换为&amp;.

此外,我建议您为此任务使用 HTML 解析器而不是正则表达式。

于 2011-02-10T20:17:37.317 回答