有没有办法从 bash 中提取 pdf 的内容?(我有一个很大的学术论文文件夹,很遗憾有“1010.3423.pdf”之类的标签。我想编写一个 bash 脚本来更合理地命名它们,这涉及到谷歌搜索前几行。)
问问题
4590 次
3 回答
4
There is pdftotext, which can help you get the title and authors from the pdf file. You can then use this to google, or generate a filename yourself.
于 2012-12-10T04:44:44.830 回答
4
try pdftotext to extract the text? http://en.wikipedia.org/wiki/Pdftotext
于 2012-12-10T04:47:11.577 回答
1
pdf2xml 会为您提供更详细的信息,我去年一直在寻找这样的实用程序,其中我认为pdf2xml是最好的。
于 2012-12-10T04:52:27.283 回答