我正在尝试从此类页面中抓取信息。
我需要Internship
, Residency
,下包含的信息Fellowship
。我可以从表中提取值,但在这种情况下,我无法决定使用哪个表,因为标题(如Internship
)div
作为简单的纯文本出现在表外的标记下,然后表出现了我需要的值提取。而且我有很多这样的页面,没有必要每个页面都有这些值,就像在某些页面中Residency
可能根本不存在一样。(这会减少页面中的表格总数)。此类页面的一个示例是this。在此页面Internship
中根本不存在。
我面临的主要问题是所有表都具有相同的属性值,因此我无法决定将哪个表用于不同的页面。如果页面中不存在我感兴趣的任何值,我必须为该值返回一个空字符串。
我在 Python 中使用 BeautifulSoup。有人可以指出,我该如何继续提取这些值。