所以,我一直在寻找,我似乎无法弄清楚为什么我无法从我的抓取中获得结果以写入 xlsx 文件。
我正在运行 .csv 文件中的 url 列表。我在那里扔了 10 个网址,beautifulsoup 刮掉了它们。如果我只是打印数据框,那是我们的权利。
如果我尝试将结果保存为 xlsx(首选)或 csv,它只会给我最后一个 url 的结果。
如果我运行它,它会打印出完美的
with open('G-Sauce_Urls.csv' , 'r') as csv_file:
csv_reader = csv.reader(csv_file)
for line in csv_reader:
r = requests.get(line[0]).text
soup = BeautifulSoup(r,'lxml')
business = soup.find('title')
companys = business.get_text()
phones = soup.find_all(text=re.compile("Call (.*)"))
Website = soup.select('head > link:nth-child(4)')
profile = (Website[0].attrs['href'])
data = {'Required':[companys], 'Required_no_Email':[phones], 'Business_Fax':[profile] }
df = pd.DataFrame(data, columns = ['Required','First', 'Last', 'Required_no_Email', 'Business_Fax'])
但我似乎无法将其附加到 xlsx 文件中。我只得到最后一个结果,我认为这是因为它只是“写入”而不是附加。
我试过了:
writer = pd.ExcelWriter("ProspectUploadSheetRob.xlsx", engine='xlsxwriter', mode='a')
df.to_excel(writer, sheet_name='Sheet1', index=False, startrow=4, header=3)
workbook = writer.book
worksheet = writer.sheets['Sheet1']
writer.save()
和
with ExcelWriter('path_to_file.xlsx', mode='a') as writer:
df.to_excel(writer, sheet_name='Sheet1', index=False, startrow=4, header=3)
writer.save()
和
df = pd.DataFrame(data, columns = ['Required','First', 'Last', 'Required_no_Email', 'Business_Fax'])
writer = pd.ExcelWriter("ProspectUploadSheetRob.xlsx", engine='xlsxwriter')
df.to_excel(writer, sheet_name='Sheet1', index=False, startrow=4, header=3)
writer.save()
和
我开始阅读 openpyxl,但此时我很困惑,我不明白。
任何和所有的帮助表示赞赏