我使用了模块板岩,它基于 pdfminer。
下面的脚本可以正确阅读第1页和第2页的文章,但是页面多,pdf文件多所以布局可能会变化pdf有点多变,有时会在下一页跑一篇文章,所以没有放下是-so它没有很好地显示出来。可能必须构建一个for循环,但我不知道具体如何。一个 for 循环可能是必须构建的,但我不知道具体是如何构建的。
还打算将项目留在数据库中,但首先仍必须将其发送到过滤器脚本。那么,如果可以将项目分类为标题、描述、日期文章、添加日期、url 和 regio_land 是否有用?
PDF 文件:
- DHS_Daily_Report_2012-08-30
- DHS_Daily_Report_2012-08-29
- DHS_Daily_Report_2012-08-28
- DHS_Daily_Report_2012-08-27
- 更多每日报告
import slate
global artikelIndexStr
with open('report.pdf') as f:
doc = slate.PDF(f)
report = slate.PDF(f)
pdfstring = doc[1] + doc[2] + doc[3] + doc[4] + doc[5] + doc[6] + doc[7] + doc[8] + doc[9] + doc[10] + doc[11] + doc[12] + doc[13] + doc[14] + doc[15] + doc[16] + doc[17] + doc[18] + doc[19] + doc[20]
# print pdfstring
f3 = 'Even iets'
f3 = pdfstring
temparray = []
temparray2 = []
artikelIndex = 1
artikelIndexStr = ""
while f3 != "":
f1, f2, f3 = f3.partition("[Return to top]")
temparray.append(f1)
print len(temparray)
nieuweIndex = "" + temparray[0]
print nieuweIndex
a1, a2, a3 = nieuweIndex.partition("1. ")
b1, b2, b3 = a3.partition("Source: ")
c1, c2, c3 = b3.partition("2. ")
d1, d2, d3 = c3.partition("Source: ")
e1, e2, e3 = d3.partition("3.")
g1, g2, g3 = e3.partition("Source: ")
h1, h2, h3 = g3.partition("4.")
i1, i2, i3 = h3.partition("Source: ")
j1, j2, j3 = i3.partition("5.")
k1, k2, k3 = h3.partition("Source: ")
l1, l2, l3 = i3.partition("6.")
print ""
print b1
print ""
print c1
print ""
print d1
print ""
print e1
print ""
print g1
print ""
print h1
print ""
print i1
print ""
print j1
print ""
print k1
print ""
print l1