python - 将参数传递给 pdf2txt 函数

Question

我正在尝试使用 PDFMiner 从 PDF 文件中提取文本。我想使用脚本 pdf2txt.py 在

http://www.unixuser.org/~euske/python/pdfminer/index.html

用这条线

pdf2txt.py samples/simple1.pdf

由于我正在使用 IDLE 在 Windows 上工作，因此我在 IDLE 中运行以下脚本

import pdf2txt

pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.pdf'])

每次都给我

用法：C:\Usersernor\Desktop\Dictionary Construction\simple1.pdf [-d] [-p pagenos] [-m maxpages] [-P 密码] [-o 输出] [-C] [-n] [-A ] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F boxes_flow] [-Y layout_mode] [-O output_dir] [-R 旋转] [-t text|html|xml|tag ] [-c 编解码器] [-s 比例] 文件...

我知道这是一条错误消息，告诉我该参数未解析。pdf2txt.py 的前几行如下：

def main(argv):
    import getopt
def usage():
    print ('usage: %s [-d] [-p pagenos] [-m maxpages] [-P password] [-o output]'
           ' [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin]'
           ' [-F boxes_flow] [-Y layout_mode] [-O output_dir] [-R rotation]'
           ' [-t text|html|xml|tag] [-c codec] [-s scale]'
           ' file ...' % argv[0])
    return 100
try:
    (opts, args) = getopt.getopt(argv[1:], 'dp:m:P:o:CnAVM:L:W:F:Y:O:R:t:c:s:')
except getopt.GetoptError:

我怎样才能格式化我的论点？我知道这是一个愚蠢的问题，但它让我发疯。

请帮我！

谢谢，

杰森

更新

按照 Luis 的建议，我将命令更改为

pdf2txt.main(['simple1.html','mypdf.pdf'])

现在它可以在 shell 窗口中产生输出，但是，我找不到输出文件 'simple1.html'，我尝试了以下命令：

pdf2txt.main(['-o C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])

pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])

他们都没有工作并在我指定的文件夹中生成文件。

score 1 · Accepted Answer

您应该将其称为：

pdf2txt.py samples/simple1.txt samples/simple1.pdf

如果您愿意，假设将 samples/simple1.txt 作为输出。

python - 将参数传递给 pdf2txt 函数

1 回答 1

Related

Reference