我不确定 WWW::Mechanize 中使用的 url_regex 的正确语法是什么。
我正在收集以 http:// 开头的网页中的所有链接,它们的格式如下:
http://google.com
并不是,
http://google.com/dir/
http://google.com/dir/dir2/
所以,我使用以下内容:
@links=$mech->find_all_links(url_regex=>qr/^http:\/\/.*?\//)
这仍然会捕获其中包含子路径的 URL。
我在 regexpal.com 上测试了我的正则表达式,效果很好。但由于某种原因, url_regex 需要不同的语法。
谢谢。