python - 使用 PyPDF2 解密二进制 pdf

Question

嗨，我正在编写一个脚本，通过使用字典（在 python 上）为学校解密 pdf。我正在使用 PyPDF2 库，但我在解密 PDF 文件时遇到问题，因为它是在 latin-1 上编码的，而 PyPDF2 似乎无法使用该编码文件。我已经在其他 PDF 文件（非 latin-1 编码）上检查了我的脚本并且它可以工作，所以我需要让那个 PDF 文件在 UTF-8 上编码或让 PyPDF2 在 latin-1 上工作。

这是我的脚本：

import PyPDF2
import os

probadas = []           # Lista gobal con todas las claves probadas
errores = []            # Lista global de palabras que dieron fallo


def ejecuta():
    res = "Clave no encontrada en ningun diccionario."
    dir = './diccionarios/ingles'
    for file in os.listdir(dir):
        if file.endswith(".txt"):
            if diccionario(file):
                res = "Clave encontrada en el diccionario: " + file
                return res
    return res


def reglas(texto):
    vocales = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
    res = True
    text = texto[:1].lower() + texto[1:]
    for i in text:
        res = res and (i in vocales)
    return res  



def diccionario(diccionario):
    pdf = PyPDF2.PdfFileReader(open('apuntes.pdf', 'rb'))      # Abre el archivo pdf a desencriptar             
    file = open('./diccionarios/ingles/' + diccionario, "r", encoding="utf8", errors='ignore')    # Abre el diccionario especificado
    temp = file.read().splitlines()                                    # Separa las palabras por lineas, evitando que aparezca '\n' al final de las palabras

    global probadas                                                # Lista de claves ya probadas.
    global errores                                                 # Lista de claves que dan fallo

    res = False                                                        # Clave no encontrada
    palabra = ''
    cont = 0

    print("\n--- Probando las combinaciones de: " + diccionario)

    for palabra in temp:
        i = palabra.rstrip() 
        cont += 1
        if len(i) < 5 or not reglas(i) or i in probadas:
            pass
        else:
            if cont % 10000 == 0 and cont != 0:
                print(" Probadas " + str(cont) + " combinaciones. Actual: " + i)            
            try:
                if pdf.decrypt(i.lower()):                      #i.lower().encode('latin-1')                   # Si se desencripta termina el programa y muestra la contrasena
                    print("\n La contrasena es: " + i)  
                    res = True                  
                    break
                    return res
                else:
                    probadas.append(i)  
            except UnicodeEncodeError as error:
                print("Error: " + i + " Info: " + str(error))
                errores.append(i)
                pass
            palabra = i 
    print("\nProbadas todas las "+ str(cont) + " combinaciones del diccionario: " + diccionario + ".  Total claves probadas: " + str(len(probadas)) + ".  Ultima clave probada: " + palabra)
    if not res:
        print("Clave no encontrada.")   
    return res      




# EJECUCION DEL SCRIPT

ejecuta()


input("\nPress enter to exit. ")

所以我试图通过使用“/diccionarios/ingles/”目录中的字典来解密文件“apuntes.pdf”，错误只是在命令上：pdf = PyPDF2.PdfFileReader(open('apuntes.pdf ', 'rb')) 和 if pdf.decrypt(i.lower()): 当我尝试用任何单词解密时，它返回以下消息：**

-- Probando las combinaciones de: 0_diccionarioIngles1.txt

错误：aahed 信息：“latin-1”编解码器无法在位置 0 编码字符“\u015e”：序数不在范围内（256）

那么我该怎么做才能让我的脚本在那个 PDF 上工作呢？

谢谢

python - 使用 PyPDF2 解密二进制 pdf

0 回答 0

Related

Reference