Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想在java中读取任何文件的内容,如doc、pdf、ppt等部分或段落,因为我想检索文件的特定部分(如果有)而不是检索整个文件的内容。请可以有人告诉我,我怎样才能阅读任何文件的内容,无论是部分还是段落…………..
谢谢
这完全取决于相关文件的格式。例如,当您有一个.docx文件时,您可以使用一些 XML 解析器,然后遍历结果或使用 XPath 查找所有段落、部分或您希望提取的任何内容。
.docx
对于其他文件格式,您将不得不找到不同的方法。没有单一的方法可以提取任何文件的特定部分,因为不同的文件类型具有不同的数据存储方式。最有可能的是,您将不得不收集一堆库,每个文件类型一个。