我正在尝试创建一个 html 解析器,它将获取文件夹及其子文件夹中的所有 html 和 htm 文件,并取出所有 html 标签并导出 CSV 和 TXT 文件。我有一个包含子文件夹的文件夹,其中包含许多以“.html?p=39200”或“index.html?replytocom=5467”结尾的文件
我想告诉 Python 用“.html”打开所有文件?+ *(包括之后的任何变化)不仅仅是“.html”文件。
我试过谷歌搜索、查看文档和堆栈溢出,但找不到解决这个问题的方法。到目前为止,这是我的代码:
with os.scandir(directory) as it:
for entry in it:
if entry.name.endswith(".html") or entry.name.endswith("htm"):
免责声明:我是初学者