java - 使用 Apache Tika 从文本/PDF 中删除特殊字符

Question

我正在解析 PDF 文件以使用 Apache Tika 提取文本。

//Create a body content handler
BodyContentHandler handler = new BodyContentHandler();

//Metadata
Metadata metadata = new Metadata();

//Input file path
FileInputStream inputstream = new FileInputStream(new File(faInputFileName));

//Parser context. It is used to parse InputStream
ParseContext pcontext = new ParseContext();

try
{       
    //parsing the document using PDF parser from Tika.
    PDFParser pdfparser = new PDFParser();

    //Do the parsing by calling the parse function of pdfparser
    pdfparser.parse(inputstream, handler, metadata,pcontext);

}catch(Exception e)
{
    System.out.println("Exception caught:");
}
String extractedText = handler.toString();

上面的代码有效，PDF 中的文本被提取。

PDF 文件中有一些特殊字符（如@/&/£ 或商标符号等）。如何在提取过程中或提取后删除这些特殊字符？

score 1 · Accepted Answer

PDF 使用 unicode 代码点，您可能有包含代理对、组合形式（例如变音符号）等的字符串，并且可能希望将这些保留为最接近的 ASCII 等价物，例如规范化é为e. 如果是这样，您可以执行以下操作：

import java.text.Normalizer;

String normalisedText = Normalizer.normalize(handler.toString(), Normalizer.Form.NFD);

如果您只是在 ASCII 文本之后，那么一旦标准化，您可以使用正则表达式过滤从 Tika 获得的字符串，按照这个答案：

extractedText = normalisedText.replaceAll("[^\\p{ASCII}]", "");

但是，由于正则表达式可能很慢（特别是在大字符串上），您可能希望避免使用正则表达式并进行简单的替换（根据此答案）：

public static String flattenToAscii(String string) {
    char[] out = new char[string.length()];
    String normalized = Normalizer.normalize(string, Normalizer.Form.NFD);
    int j = 0;
    for (int i = 0, n = normalized.length(); i < n; ++i) {
        char c = normalized.charAt(i);
        if (c <= '\u007F') out[j++] = c;
    }
    return new String(out);
}

java - 使用 Apache Tika 从文本/PDF 中删除特殊字符

1 回答 1

Related

Reference