0

我正在尝试对包含正文中的单元测试结果的 html 文件进行简单解析

url = urllib2.urlopen('file:/randomstuff/results.txt').read()
soup = BeautifulSoup(url, 'lxml')
save = soup.body.findAll(text = re.compile("failed"))

我能从中得到的最好的结果是 1 个带有 lxml 和 html5lib 的文本实例(当接近 50 个时)。其他解析器找不到。无论如何我可以解决损坏的html吗?

身体的一个例子是这个

********* LogLevelTypeTest 测试完成 *********
********* AppLoggerConfigTest 开始测试 *********
配置:使用 QTest 库 4.8 .1,Qt 4.8.1
通过:initTestCase
通过:testSetFromEnvironment
通过:cleanupTestCase
总计:3 通过,0 失败,0 跳过

看起来像这样

<html>
   <head></head>
   <body>
   <pre style="word-wrap: break-word; white-space: pre-wrap;">
      "Common Unit Test Results"
      ...
      ...
   </pre>
 </body>

4

0 回答 0