我正在尝试从 PDF 文档中提取文本。我想知道 PDF 如何处理项目符号段落。考虑这个例子:
PDF 是否保留任何逻辑元信息,即上面显示的 2 块文本是项目符号列表系统的成员,还是只留给人类大脑来解释项目符号?这些信息对我开发我目前正在使用的文本挖掘工具非常有帮助。
谢谢,
我正在尝试从 PDF 文档中提取文本。我想知道 PDF 如何处理项目符号段落。考虑这个例子:
PDF 是否保留任何逻辑元信息,即上面显示的 2 块文本是项目符号列表系统的成员,还是只留给人类大脑来解释项目符号?这些信息对我开发我目前正在使用的文本挖掘工具非常有帮助。
谢谢,