python - 从 html 表中解析结果

Question

我试图匹配来自 html 输出的一些数据，但我不确定我能做些什么来正确执行它。因此，我使用以下代码块来提取访问和组信息的内容：

import requests
import lxml.etree as LE
import lxml.html as LH

url = "http://theurl"
r = requests.get(url,auth=('user', 'pass'))
html = r.text

root = LH.fromstring(html)
LE.strip_tags(root, 'b')
data_list = root.xpath("""//td[text()='grouplist']
                             /following-sibling::*""")[0]

accessList= data_list.xpath("""//td[text()='access']
                                 /following-sibling::*/text()""")

groups = data_list.xpath("""//td[text()='groups']
                                 /following-sibling::*/text()""")

如果我打印 accessList，我有我想要的数据：

print accessList
['Administrators', 'group_a', 'group_b', 'group_c']

但是当我打印组时，返回的结果将是：

print groups:
['\n','\n','\n']

有了这些信息，可以做些什么来获得：

print groups
['group_a', 'group_b', 'group_c']

在这里，您可以看到返回的 html 结果

<TABLE bgcolor="#dddddd" border="1" />
<TR>
   <TD valign="top"><B>grouplist</B></TD>
   <TD>
      <TABLE />
<TR>
   <TD>
      <TABLE bgcolor="#dddddd" border="1" />
<TR>
   <TD valign="top"><B>access</B></TD>
   <TD>Administrators</TD>
</TR>
<TR>
   <TD valign="top"><B>inUse</B></TD>
   <TD>true</TD>
</TR>
<TR>
   <TD valign="top"><B>groups</B></TD>
   <TD>
      <TABLE>
         <TR>
            <TD>group_a</TD>
         </TR>
         <TR>
            <TD>group_b</TD>
         </TR>
         <TR>
            <TD>group_c</TD>
         </TR>
      </TABLE>
   </TD>
</TR>
<TR>
   <TD valign="top"><B>deny</B></TD>
   <TD>
      <TABLE>
      </TABLE>
   </TD>
</TR>

编辑：可以在这里测试 HTML 代码：html tester

提前致谢。

score 1 · Accepted Answer

groups = data_list.xpath("""//td[text()='groups']
                                 /following-sibling::td/table/tr/td/text()""")

或者，更具体一点，

groups = data_list.xpath("""//td[text()='groups']
                                 /following-sibling::*//td/text()""")

作品。如果这对您的目的来说太具体了，您可以改为groups这样定义：

groups = data_list.xpath("""//td[text()='groups']
                                 /following-sibling::*""")[0]

然后使用text_content：

groups = groups.text_content().split()

group_a但是，如果,group_b和/或被group_c替换为本身包含空格的文本，则在空格上拆分文本内容可能效果不佳。

python - 从 html 表中解析结果

1 回答 1

Related

Reference