我目前正在site:somedomain.com
使用 Python 和 Mechanize 进行网站搜索,例如:进入 BING。
它可以很好地提交 bing 并返回输出 - 看起来像 Json?我似乎无法找到进一步解析结果的好方法。是 JSON 吗?
我得到如下输出:
Link(base_url=u'http://www.bing.com/search?q=site%3Asomesite.com', url='http://www.somesite.com/prof.php?pID=478', text='SomeSite - Professor Rating of Louis Scerbo', tag='a', attrs=[('href', 'http://www.somesite.com/prof.php?pID=478'), ('h', 'ID=SERP,5105.1')])Link(base_url=u'http://www.bing.com/search?q=site%3Asomesite.com', url='http://www.somesite.com/prof.php?pID=527', text='SomeSite - Professor Rating of Jahan \xe2\x80\xa6', tag='a', attrs=[('href', 'http://www.somesite.com/prof.php?pID=527'), ('h', 'ID=SERP,5118.1')])Link(base_url=u'http://www.bing.com/search?q=site%3Asomesite.com', url='http://www.somesite.com/prof.php?pID=645', text='SomeSite - Professor Rating of David Kutzik', tag='a', attrs=[('href', 'http://www.somesite.com/prof.php?pID=645'), ('h', 'ID=SERP,5131.1')])
我想获取所有网址,例如:
http://www.somesite.com/prof.php?pID=478
http://www.somesite.com/prof.php?pID=527
http://www.somesite.com/prof.php?pID=645
等等,所以url
里面的属性
如何在我的代码中通过机械化进一步做到这一点?请记住,未来的一些网址可能如下所示:
http://www.anothersite.com/dir/dir/dir/send.php?pID=100
谢谢 !