0

我有一个 .csv 文件,其中包含一个包含 .doc 文件 URL 的列,我需要保存所有这些文件,然后在本地将这些 .doc 文件批量转换为 .text,目的是最终编写一些代码来添加包含的文本在这些文件中返回原始 .csv 文件/数据库。我有超过 3000 个 .doc 文件要下载,但它们都小于 100kb。我不擅长python,但我正在努力学习,所以对此的任何帮助将不胜感激。

到目前为止,我有这个代码:

import os
import sys
import csv

def get_urls(path):
    reader=csv.reader(open(path,'U'),delimiter=',')
    reader.next()
    return [row[0] for row in reader]

url_file_path='urllist.csv'
urllist=get_urls(url_file_path)

这是最好的方法吗,即将 url 提取为列表,然后使用 urllib 下载它们?

谢谢

4

2 回答 2

0

看一下

链接.py

我下载png文件

于 2013-02-05T11:42:23.523 回答
0

我决定通过这些开始步骤远离 python,所以使用 wget 下载文件,然后使用 antiword 将所有 .doc 文件转换为 .txt。

谢谢

于 2013-02-06T10:47:27.463 回答