python - 使用 Python 从网页中提取半结构化的用户生成内容

Question

我正在做一个项目，我需要提取歌词播放的和弦。目标是找出歌词的哪个部分在哪个和弦下演奏。我正在使用包含来自ultimate-guitar.com 的吉他和弦的网页（我选择这个网站是因为它似乎拥有最多的转录歌曲集合）

网页的典型结构是：

片段：在此处输入图像描述

正如你所看到的，和弦写在歌词之前，左边距的相对位置决定了哪个和弦在哪个单词上播放。上述歌曲的页面源代码如下所示：在此处输入图像描述

我完成任务的策略：

上面的实现在某些情况下可以正常工作，但是由于没有定义特定的结构，所以只要不遵循假定的页面结构，它就会惨遭失败。

例如，（来源：http ://tabs.ultimate-guitar.com/k/kate_voegele/all_i_see_crd.htm ）

在此处输入图像描述

这里之前有意外的<pre>标签，现在我的密钥存储为<\pre>D而不是D.

由于页面结构的这种意外变化，我的解析数据中存在许多此类错误。关于如何处理此类案件的任何想法，或者是否有更好的方法来完成这项任务？

score 0 · Accepted Answer

正如您所说，您遇到了“意外变化”。

因此，处理这些情况的唯一方法是将其包含在您的逻辑中（例如，如果我们找到标签，则忽略）

score 0 · Accepted Answer

使用 XPath 会让您受益匪浅。( http://www.w3.org/TR/xpath/ )

不幸的是 BeautifulSoup 不支持它。考虑改用 lxml。

根据这个 stackoverflow 帖子，您可以让它容忍损坏的 HTML/XML 文档。

2 回答 2