我正在尝试从 HTML 文件中提取某个部分。具体来说,我查找 10-K 文件(某公司的美国业务报告)的“ITEM 1”部分。例如: https ://www.sec.gov/Archives/edgar/data/1591890/000149315218003887/form10-k.htm#a_002
问题:但是,我无法找到“ITEM 1”部分,也不知道如何告诉我的算法从该点“ITEM 1”搜索到另一点(例如“ITEM 1A”)并提取之间的文字。
我非常感谢任何帮助。
除其他外,我已经尝试过这个(和类似的),但我bd
的总是空的:
try:
# bd = soup.body.findAll(text=re.compile('^ITEM 1$'))
# bd = soup.find_all(name="ITEM 1")
# bd = soup.find_all(["ITEM 1", "ITEM1", "Item 1", "Item1", "item 1", "item1"])
print(" Business Section (Item 1): ", bd.content)
except:
print("\n Section not found!")
使用 Python 3.7 和 Beautifulsoup4
问候赫卡