-1

我想将此文件下载到我的本地驱动器: https ://www.sec.gov/Archives/edgar/data/1556179/0001104659-20-000861.txt

这是我的代码:

import requests
import urllib
from bs4 import BeautifulSoup
import re
  
path=r"https://www.sec.gov/Archives/edgar/data/1556179/0001104659-20-000861.txt" 
r=requests.get(path, headers={"User-Agent": "b2g"})
content=r.content.decode('utf8')
soup=BeautifulSoup(content, "html5lib")
soup=str(soup)
lines=soup.split("\\n")

dest_url=r"C://Users/YL/Downloads/a.txt"
fx=open(dest_url,'w')
for line in lines:
    fx.write(line + '\n')

这是错误消息: 在此处输入图像描述

那我应该怎么下载文件呢?非常感谢!

4

2 回答 2

1

下载很好。问题是str(soup)没有明确定义,并html5lib陷入无限循环。你可能是说

soup = soup.text

它(粗略地)从 BeatifulSoup 对象中提取实际的可读文本。

于 2022-01-17T12:30:40.667 回答
0

您的文件已下载正常;BeautifulSoup 的解析似乎有问题。尝试更改解析器并这样做:

path=r"https://www.sec.gov/Archives/edgar/data/1556179/0001104659-20-000861.txt" 
r=requests.get(path, headers={"User-Agent": "b2g"})
soup=BeautifulSoup(r.text, "html.parser")
soup

你会看到文件在那里。

于 2022-01-16T16:23:18.423 回答