3

我将一些使用正则表达式从 html 输出中提取内容的 python 脚本转换为 libxml2,但由于我是从这里开始的,所以会得到一点帮助。

如何使用 lxml 从下面示例的“工作目录”、“包/更新”和“Java 数据模型”中提取值?

<tr>
  <script>writeTD("row");</script>
  <td class="oddrow"><nobr>Working Dir</nobr></td>
  <script>writeTD("rowdata-l");</script>
  <td class="oddrowdata-l">/serves/test_servers</td>
</tr> 
<script>swapRows();</script>
<tr>
  <script>writeTD("row");</script>
  <td class="evenrow"><nobr>Packages/Updates</nobr></td>
  <script>writeTD("rowdata-l");</script>
  <td class="evenrowdata-l"><a href="updates.dsp">View</a></td>
</tr> 
<script>swapRows();</script>
<tr>
  <script>writeTD("row");</script>
  <td class="oddrow"><nobr>Java Data Model</nobr></td>
  <script>writeTD("rowdata-l");</script>
  <td class="oddrowdata-l">64-bit</td>
</tr>
</tbody></table>
</td>
</tr>
</tbody></table>

提前致谢。

4

1 回答 1

5

使用您发布为的 HTML content

import lxml.html as LH
doc = LH.fromstring(content)
tds = (td.text_content() for td in doc.xpath('//td'))    
for td, val in zip(*[tds]*2):
    if td in ("Working Dir", "Java Data Model"):
        print(td,val)

产量

('Working Dir', '/serves/test_servers')
('Java Data Model', '64-bit')

这条线完成了大部分工作:

tds = (td.text_content() for td in doc.xpath('//td'))

它使用该xpath()方法搜索所有<td>标签。它使用该text_content()方法来提取关联的文本。

zip(*[tds]*2)是成对迭代的石斑鱼习语:tds

for td, val in zip(*[tds]*2):
    print(td,val)

请注意,这假定<td>标签和值交替跟随。

于 2012-08-03T12:04:22.767 回答