我正在编写一个 curl 脚本来收集有关某些性犯罪者的信息,我开发了该脚本来获取如下所示的链接:
http://criminaljustice.state.ny.us/cgi/internet/nsor/...(截断的网址)
现在,当我们访问此链接时,我想在此页面上的所有字段下获取信息,例如罪犯 ID:、姓氏等,并将其放入我自己的变量中。我的正则表达式很弱,这就是我在这里的原因。还是有其他方法?
有人可以帮我这样做吗?
我正在编写一个 curl 脚本来收集有关某些性犯罪者的信息,我开发了该脚本来获取如下所示的链接:
http://criminaljustice.state.ny.us/cgi/internet/nsor/...(截断的网址)
现在,当我们访问此链接时,我想在此页面上的所有字段下获取信息,例如罪犯 ID:、姓氏等,并将其放入我自己的变量中。我的正则表达式很弱,这就是我在这里的原因。还是有其他方法?
有人可以帮我这样做吗?
phpQuery非常适合在 PHP 中进行屏幕抓取。它允许您使用与 jQuery 相同的方法访问 DOM。
您不想要正则表达式(请参阅Can you provide some examples of why it is hard to parse XML and HTML with a regex? ,寻找PHP 的 HTML 解析器。请参阅Can you provide an example of parsing HTML with your最喜欢的解析器?
我倾向于同意之前关于 RegEx 不是适合这项工作的工具的海报。如果你只是想要一个快速而肮脏的表达,这里是:
Offender Id:.*
.* [0-9]*
注意:您必须在此表达式中包含换行符。另请注意,这是非常脆弱的,因为如果您正在解析的源发生很大变化,它就会中断。