我正在尝试构建一个刮板来从网站中提取关键指标。其中一项指标是在网站上查找产品的型号。我使用 Outwit 作为基础程序,但是当涉及到站点源代码中的一些异常时,我现在陷入困境。
以下是源代码示例:
var zx_description = "Test Dress<br/><br/>Model: Nice01j<br/>
我要提取的信息是:Nice01j
问题在于,对于某些产品,Modell 一词拼写为 Model,并且实际型号名称/编号的结尾并不总是以换行符结尾,但在某些情况下,代码可能如下所示:
var zx_description = "Test Dress<br/><br/>Model: Nice01j";
我已设法在 Modell 编号之前创建 RegEx,如下所示:
/var zx_description[\s\S]+?Modell:/
所以现在我想改变它,以便它还考虑到拼写可能是只有一个“l”的模型。
此外,第二部分是创建一个正则表达式,用于在实际模型名称之后捕获 te 信息,其中应该类似于:
IF: < br comes before "; then < br ELSE ";
这是否可以在正则表达式中说明,如果可以,我将如何做到这一点?