python - 从 .csv 下载包含 url 的 .doc 文件，然后将它们批量转换为纯文本

Question

我有一个 .csv 文件，其中包含一个包含 .doc 文件 URL 的列，我需要保存所有这些文件，然后在本地将这些 .doc 文件批量转换为 .text，目的是最终编写一些代码来添加包含的文本在这些文件中返回原始 .csv 文件/数据库。我有超过 3000 个 .doc 文件要下载，但它们都小于 100kb。我不擅长python，但我正在努力学习，所以对此的任何帮助将不胜感激。

到目前为止，我有这个代码：

import os
import sys
import csv

def get_urls(path):
    reader=csv.reader(open(path,'U'),delimiter=',')
    reader.next()
    return [row[0] for row in reader]

url_file_path='urllist.csv'
urllist=get_urls(url_file_path)

这是最好的方法吗，即将 url 提取为列表，然后使用 urllib 下载它们？

谢谢

score 0 · Accepted Answer

0

看一下

链接.py

我下载png文件

于 2013-02-05T11:42:23.523 回答

score 0 · Accepted Answer

我决定通过这些开始步骤远离 python，所以使用 wget 下载文件，然后使用 antiword 将所有 .doc 文件转换为 .txt。

谢谢

python - 从 .csv 下载包含 url 的 .doc 文件，然后将它们批量转换为纯文本

2 回答 2

Related

Reference