我正在尝试开发一个脚本来从大量 html 表中提取一些数据。一个问题是包含用于创建列标题的信息的行数是不确定的。我发现标题行集的最后一行具有每个带有值的单元格的属性border-bottom。因此我决定找到那些具有属性border-bottom的单元格。如您所见,我初始化了一个列表。我打算找到最终出现在borderCells 列表中的每个单元格的父级。但是,当我运行此代码时,只有一个单元格,即 allCells 中具有属性border-bottom 的第一个单元格被添加到列表borderCells 中。供您参考 allCells 有 193 个单元格,其中 9 个具有 attr 边界底部。因此,我期待borderCells 列表中有九个成员。任何帮助表示赞赏。
borderCells=[]
for each in allCells:
if each.find(attrs={"style": re.compile("border-bottom")}):
borderCells.append(each)