我正在使用开源网络抓取工具 Web Harvest (http://web-harvest.sourceforge.net/)。
我尝试使用的正则表达式具有“<”、“>”字符(因为我试图去除所有进入的 HTML 标记)。这会导致问题,因为元素的内容必须由格式良好的字符数据或标记组成。
我需要以某种方式逃避正则表达式,但不知道如何。
有任何想法吗?
我正在使用开源网络抓取工具 Web Harvest (http://web-harvest.sourceforge.net/)。
我尝试使用的正则表达式具有“<”、“>”字符(因为我试图去除所有进入的 HTML 标记)。这会导致问题,因为元素的内容必须由格式良好的字符数据或标记组成。
我需要以某种方式逃避正则表达式,但不知道如何。
有任何想法吗?