我的文字看起来像:
Link(base_url=u'http://www.bing.com/search?q=site%3Asomesite.com', url='http://www.somesite.com/prof.php?pID=478', text='SomeSite - Professor Rating of Louis Scerbo', tag='a', attrs=[('href', 'http://www.somesite.com/prof.php?pID=478'), ('h', 'ID=SERP,5105.1')])Link(base_url=u'http://www.bing.com/search?q=site%3Asomesite.com', url='http://www.somesite.com/prof.php?pID=527', text='SomeSite - Professor Rating of Jahan \xe2\x80\xa6', tag='a', attrs=[('href', 'http://www.somesite.com/prof.php?pID=527'), ('h', 'ID=SERP,5118.1')])Link(base_url=u'http://www.bing.com/search?q=site%3Asomesite.com', url='http://www.somesite.com/prof.php?pID=645', text='SomeSite - Professor Rating of David Kutzik', tag='a', attrs=[('href', 'http://www.somesite.com/prof.php?pID=645'), ('h', 'ID=SERP,5131.1')])
问题
有谁知道这个文本的格式?
例如,我将如何解析元素的值
url
(来自上面的文本): http ://www.somesite.com/prof.php?pID=478 http://www.somesite.com/prof。 php?pID=527你会推荐什么 Python 库来解析这种类型的输出、xml、json 等?
我只是想loop through the url
解析url
only 的值。
请记住,我使用的是 Django。
感谢您提供任何帮助。
编辑 *当前代码: *
domainLinkOutputAsString = str(domainLinkOutput)
r = re.compile(" url='(.*?)',", ) ##ERRORENOUS, must be 're' compliant.
ProperDomains = r.findall(domainLinkOutputAsString)
return HttpResponse(ProperDomains)