0

我正在尝试构建一个刮板来从网站中提取关键指标。其中一项指标是在网站上查找产品的型号。我使用 Outwit 作为基础程序,但是当涉及到站点源代码中的一些异常时,我现在陷入困境。

以下是源代码示例:

var zx_description = "Test Dress<br/><br/>Model: Nice01j<br/>

我要提取的信息是:Nice01j

问题在于,对于某些产品,Modell 一词拼写为 Model,并且实际型号名称/编号的结尾并不总是以换行符结尾,但在某些情况下,代码可能如下所示:

var zx_description = "Test Dress<br/><br/>Model: Nice01j";

我已设法在 Modell 编号之前创建 RegEx,如下所示:

/var zx_description[\s\S]+?Modell:/

所以现在我想改变它,以便它还考虑到拼写可能是只有一个“l”的模型。

此外,第二部分是创建一个正则表达式,用于在实际模型名称之后捕获 te 信息,其中应该类似于:

IF: < br comes before "; then < br ELSE ";

这是否可以在正则表达式中说明,如果可以,我将如何做到这一点?

4

1 回答 1

0

根据您对 [\s\S] 的使用,在我看来您需要完成正则表达式教程。对于您的问题,请特别关注可选项目和捕获组。

http://www.regular-expressions.info/tutorial.html

于 2013-03-30T22:12:54.727 回答