我已经使用 tika 为一些 pdf 文件提取了文本,并将文本存储在文本文件中。现在我想使用opennlp Chunk解析器解析这些文件,但我无法解析文件行,因为它包含一些特殊字符(一些方形符号),单词之间没有空格,我的文本文件中的示例行(无法显示那些方形符号,变音符号)
51.2.3 Troubleshooting DHCP Configuration ?
62 Module 3: Point-to-Point Protocol (PPP) ?
62.1 Configuring HDLC Encapsulation ?
所以我想得到这些线条
Troubleshooting DHCP Configuratin
Module 3: Point-to-Point Protocol(PPP)
Configuring HDLC Encapsulation
请建议我如何做到这一点?