我有一个项目,我必须从 PDF 文件(而不是元数据)中获取标题、作者信息。所以我尝试通过给定的坐标从 PDF 中读取文本并尝试获取文本的字体。
有没有办法做到这一点,任何人都可以提供建议吗?还是有其他解决方案可以完成我的项目?
感谢您的每一个帮助,并认为您正在与我分享。
我有一个项目,我必须从 PDF 文件(而不是元数据)中获取标题、作者信息。所以我尝试通过给定的坐标从 PDF 中读取文本并尝试获取文本的字体。
有没有办法做到这一点,任何人都可以提供建议吗?还是有其他解决方案可以完成我的项目?
感谢您的每一个帮助,并认为您正在与我分享。
有多个用于 Java 的 PDF 库允许您提取文本,我最喜欢的是iText,作为文本解析的示例,请查看ExtractPageContentArea和 iText in Action 第 2 版第 15 章中的其他示例。
目前没有使用字体信息的示例,但该信息可供 RenderListener 使用。