python - PyPDF2 坚持删除所有空格

Question

我已经阅读了许多其他 stackoverflow 答案，但还没有找到令人满意的答案，但之前有人问过。当我尝试使用 PyPDF2 阅读 pdf 文档时，它会将句子中的所有单词合并为一个连续的字符串。有没有人在弄清楚如何避免这种情况方面取得任何进展。下面是代码

 import PyPDF2
 import pandas as pd

 import  struct as struct

 from nltk import word_tokenize

 pdfFileObj = open("notes.pdf", 'rb')

  pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

 ## reading pages fine
 print(type(pdfReader.numPages))

## read in the pages 
pageObj = pdfReader.getPage(0)

 print(pageObj.extractText())

下面是输出示例

2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics.
3)Datasummarization(graphicalandnumerical)

4)Probabilityandrandomvariables

score 5 · Accepted Answer

从来没有想过如何删除空格，这是一个非常笨拙的程序。我发现使用 pdfMiner 的答案是最有帮助的。它很容易理解并且存在更好的文档。以下是与我有相同问题的任何人的链接。

http://survivalengineer.blogspot.ie/2014/04/parsing-pdfs-in-python.html

python - PyPDF2 坚持删除所有空格

1 回答 1

Related

Reference