嗨,我正在编写一个脚本,通过使用字典(在 python 上)为学校解密 pdf。我正在使用 PyPDF2 库,但我在解密 PDF 文件时遇到问题,因为它是在 latin-1 上编码的,而 PyPDF2 似乎无法使用该编码文件。我已经在其他 PDF 文件(非 latin-1 编码)上检查了我的脚本并且它可以工作,所以我需要让那个 PDF 文件在 UTF-8 上编码或让 PyPDF2 在 latin-1 上工作。
这是我的脚本:
import PyPDF2
import os
probadas = [] # Lista gobal con todas las claves probadas
errores = [] # Lista global de palabras que dieron fallo
def ejecuta():
res = "Clave no encontrada en ningun diccionario."
dir = './diccionarios/ingles'
for file in os.listdir(dir):
if file.endswith(".txt"):
if diccionario(file):
res = "Clave encontrada en el diccionario: " + file
return res
return res
def reglas(texto):
vocales = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
res = True
text = texto[:1].lower() + texto[1:]
for i in text:
res = res and (i in vocales)
return res
def diccionario(diccionario):
pdf = PyPDF2.PdfFileReader(open('apuntes.pdf', 'rb')) # Abre el archivo pdf a desencriptar
file = open('./diccionarios/ingles/' + diccionario, "r", encoding="utf8", errors='ignore') # Abre el diccionario especificado
temp = file.read().splitlines() # Separa las palabras por lineas, evitando que aparezca '\n' al final de las palabras
global probadas # Lista de claves ya probadas.
global errores # Lista de claves que dan fallo
res = False # Clave no encontrada
palabra = ''
cont = 0
print("\n--- Probando las combinaciones de: " + diccionario)
for palabra in temp:
i = palabra.rstrip()
cont += 1
if len(i) < 5 or not reglas(i) or i in probadas:
pass
else:
if cont % 10000 == 0 and cont != 0:
print(" Probadas " + str(cont) + " combinaciones. Actual: " + i)
try:
if pdf.decrypt(i.lower()): #i.lower().encode('latin-1') # Si se desencripta termina el programa y muestra la contrasena
print("\n La contrasena es: " + i)
res = True
break
return res
else:
probadas.append(i)
except UnicodeEncodeError as error:
print("Error: " + i + " Info: " + str(error))
errores.append(i)
pass
palabra = i
print("\nProbadas todas las "+ str(cont) + " combinaciones del diccionario: " + diccionario + ". Total claves probadas: " + str(len(probadas)) + ". Ultima clave probada: " + palabra)
if not res:
print("Clave no encontrada.")
return res
# EJECUCION DEL SCRIPT
ejecuta()
input("\nPress enter to exit. ")
所以我试图通过使用“/diccionarios/ingles/”目录中的字典来解密文件“apuntes.pdf”,错误只是在命令上:pdf = PyPDF2.PdfFileReader(open('apuntes.pdf ', 'rb')) 和 if pdf.decrypt(i.lower()): 当我尝试用任何单词解密时,它返回以下消息:**
-- Probando las combinaciones de: 0_diccionarioIngles1.txt
错误:aahed 信息:“latin-1”编解码器无法在位置 0 编码字符“\u015e”:序数不在范围内(256)
那么我该怎么做才能让我的脚本在那个 PDF 上工作呢?
谢谢