我正在搜索一个看起来像这样的 OPML 文件。我想提取大纲文本和 xmlUrl。
<outline text="lol">
<outline text="Discourse on the Otter" xmlUrl="http://discourseontheotter.tumblr.com/rss" htmlUrl="http://discourseontheotter.tumblr.com/"/>
<outline text="fedoras of okc" xmlUrl="http://fedorasofokc.tumblr.com/rss" htmlUrl="http://fedorasofokc.tumblr.com/"/>
</outline>
我的功能:
import re
rssName = 'outline text="(.*?)"'
rssUrl = 'xmlUrl="(.*?)"'
def rssSearch():
doc = open('ttrss.txt')
for line in doc:
if "xmlUrl" in line:
mName = re.search(rssName, line)
mUrl = re.search(rssUrl, line)
if mName is not None:
print mName.group()
print mUrl.group()
但是,返回值如下:
outline text="fedoras of okc"
xmlUrl="http://fedorasofokc.tumblr.com/rss"
rssName 和 rssUrl 的正确正则表达式是什么,以便我只返回引号之间的字符串?