0

我正在编写一个 curl 脚本来收集有关某些性犯罪者的信息,我开发了该脚本来获取如下所示的链接:

http://criminaljustice.state.ny.us/cgi/internet/nsor/...(截断的网址)

现在,当我们访问此链接时,我想在此页面上的所有字段下获取信息,例如罪犯 ID:、姓氏等,并将其放入我自己的变量中。我的正则表达式很弱,这就是我在这里的原因。还是有其他方法?

有人可以帮我这样做吗?

4

3 回答 3

4

phpQuery非常适合在 PHP 中进行屏幕抓取。它允许您使用与 jQuery 相同的方法访问 DOM。

于 2009-04-30T21:50:51.997 回答
1

您不想要正则表达式(请参阅Can you provide some examples of why it is hard to parse XML and HTML with a regex? 寻找PHP 的 HTML 解析器。请参阅Can you provide an example of parsing HTML with your最喜欢的解析器?

于 2009-04-30T21:46:23.647 回答
0

我倾向于同意之前关于 RegEx 不是适合这项工作的工具的海报。如果你只是想要一个快速而肮脏的表达,这里是:

Offender Id:.*
.* [0-9]*

注意:您必须在此表达式中包含换行符。另请注意,这是非常脆弱的,因为如果您正在解析的源发生很大变化,它就会中断。

于 2009-04-30T21:58:08.563 回答