python - 如何使用 regexp + Python 从 XML 中获取指定标签属性的值？

Question

我有一个解析一些 xml 的脚本。XML 包含：

<SD TITLE="A" FLAGS="" HOST="9511.com">
<TITLE TEXT="9511 domain"/>
<ADDR STREET="Pmb#400, San Pablo Ave" CITY="Berkeley" STATE="CA" COUNTRY="US"/>
<CREATED DATE="13-Oct-1990" DAY="13" MONTH="10" YEAR="1990"/>
<OWNER NAME="9511.Org Domain Name Proxy Agents"/>
<EMAIL ADDR="proxy@9511.org"/><LANG LEX="en" CODE="us-ascii"/>
<LINKSIN NUM="75"/><SPEED TEXT="3158" PCT="17"/>
<CHILD SRATING="0"/>
</SD>
<SD>
<POPULARITY URL="9511.com/" TEXT="1417678" SOURCE="panel"/>
</SD>

如何获取标签的'TEXT'属性值（在我的情况下为1417678）？我正在使用正则表达式+Python。正则表达式字符串：

my_value = re.findall("POPULARITY[^\d]*(\d+)", xml)

它给我'9511'，但我需要'1417678'。

score 5 · Accepted Answer

您可以使用BeautifulSoup

import BeautifulSoup

xml = '''<SD TITLE="A" FLAGS="" HOST="9511.com">
<TITLE TEXT="9511 domain"/>
<ADDR STREET="Pmb#400, San Pablo Ave" CITY="Berkeley" STATE="CA" COUNTRY="US"/>
<CREATED DATE="13-Oct-1990" DAY="13" MONTH="10" YEAR="1990"/>
<OWNER NAME="9511.Org Domain Name Proxy Agents"/>
<EMAIL ADDR="proxy@9511.org"/><LANG LEX="en" CODE="us-ascii"/>
<LINKSIN NUM="75"/><SPEED TEXT="3158" PCT="17"/>
<CHILD SRATING="0"/>
</SD>
<SD>
<POPULARITY URL="9511.com/" TEXT="1417678" SOURCE="panel"/>
</SD>'''

soup = BeautifulSoup.BeautifulSoup(xml)

print(soup.find('popularity')['text'])

输出

u'1417678'

score 1 · Accepted Answer

您只是匹配元素名称之后出现的第一个十进制数字序列。'(\d+)'在任意数量的非数字之后的第一个数字序列'[^\d]*'是9511.

为了属性的findall值@TEXT，这样的事情会起作用：

my_values = re.findall("<POPULARITY(?:\D+=\"\S*\")*\s+TEXT=\"(\d*)\"", xml) # returning a list btw

或者，如果没有其他属性将只有数字值，除了@TEXT：

 re.findall("<POPULARITY\s+(?:\S+\s+)*\w+=\"(\d+)\"", xml)

Where(?:...)匹配包含的表达式，但不充当可寻址组，例如(...). 特殊序列\S和\D是它们的小写对应物的反转，分别扩展到（除了）空白和数字。

然而，正如已经提到的，正则表达式并不意味着在 XML 上使用，因为 XML 不是常规语言。

python - 如何使用 regexp + Python 从 XML 中获取指定标签属性的值？

2 回答 2

Related

Reference