python - 没有一个解析器找到所有漂亮的汤蟒

翻译自：https://stackoverflow.com/questions/46204600 2017-09-13T18:33:42.923

52 次

我正在尝试对包含正文中的单元测试结果的 html 文件进行简单解析

url = urllib2.urlopen('file:/randomstuff/results.txt').read()
soup = BeautifulSoup(url, 'lxml')
save = soup.body.findAll(text = re.compile("failed"))

我能从中得到的最好的结果是 1 个带有 lxml 和 html5lib 的文本实例（当接近 50 个时）。其他解析器找不到。无论如何我可以解决损坏的html吗？

身体的一个例子是这个

********* LogLevelTypeTest 测试完成 *********
********* AppLoggerConfigTest 开始测试 *********
配置：使用 QTest 库 4.8 .1，Qt 4.8.1
通过：initTestCase
通过：testSetFromEnvironment
通过：cleanupTestCase
总计：3 通过，0 失败，0 跳过

看起来像这样

<html>
   <head></head>
   <body>
   <pre style="word-wrap: break-word; white-space: pre-wrap;">
      "Common Unit Test Results"
      ...
      ...
   </pre>
 </body>

python - 没有一个解析器找到所有漂亮的汤蟒

0 回答 0

Related

Reference