0

我是编码新手,有一些可以使用指导的概念性问题。

我正在网页抓取,它输出到一个 csv,如果在我运行笔记本时 csv 已经存在,它会附加行。我计划使用带有 papermill 的 cronjobs 来自动运行刮,但我担心我可能会丢失一些代码来确保我不会覆盖当前的 csv。我想我可能还需要实现if name == __main__,但我无法理解它的应用。

下面是我认为我可能需要编辑才能使用 papermill 并获得我想要的结果的代码。

file_name = Path("scrapes.csv") 

if file_name.exists():  # if file already exists in directory
    print('file exists, now appending')
    
    # append new scrapes to the file without header row
    df.to_csv('scrapes.csv', mode='a', index=False, header=False) 

else: # if file does not exist yet
    print('file does not exist, now creating')
    df.to_csv('scrapes.csv', index=False) #create new file 
  1. 如果我在 papermill 中运行它,它会知道我指的是哪个文件路径,还是使用 os.path 是最佳实践?

  2. 我是否需要将输出位置指定为生成/附加的 csv 的路径?

  3. 我需要为此使用if name == __main__吗?一般来说,我对它的用例仍然有些困惑。

谢谢!

4

0 回答 0