问题标签 [pdfparser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 用 Python 提取文章正文的最佳方法是什么?
概括
我正在用 Python 构建一个文本摘要器。我主要针对的文件类型是通常为 pdf 格式的学术论文。
我想要达到的目标
我想有效地提取论文的正文(摘要到结论),不包括论文的标题、出版商名称、图像、方程式和参考文献。
问题
我曾尝试寻找有效的方法来做到这一点,但我找不到有形且有用的东西。我当前的代码尝试按句子拆分 pdf 文档,然后过滤掉每个句子的平均字符数少于平均数的条目。下面是代码:
注意:我使用这篇文章作为输入。
上面的代码似乎工作正常,但我仍然无法有效地过滤掉抽象部分之前的标题和出版商名称以及结论之后的参考部分等内容。此外,像图像这样的东西会导致乱码字符出现在文本中,这会破坏输出的整体质量。由于奇怪的 unicode 字符,我无法将输出写入 txt 文件。
上诉
有什么方法可以提高此解析器的性能并使其更加一致?
谢谢您的回答!
pdf - 如何解码PDF文件并将其编码回来?
我的总体目标是使一些 PDF 文件符合 PDF/A 标准以用于存档目的。它们不符合一项要求,即某些字形映射映射到 0,这是它们不应该的。
我通常的策略是使用一个名为“Pdfedit”的旧软件,它可以解码 PDF 文件,然后所有字节流都将是人类可读的,编辑包含字形映射的 PDF 的相关部分,然后用 Adobe 打开文件自动重新编码的 Acrobat。
现在我有一些 PDF 在打开时会导致“Pdfedit”崩溃。我尝试使用PDF-Parser,但 Adobe Acrobat 无法重新编码其输出。
此外,过去看起来像这样解码的相关部分:
但现在我使用以下命令python3 pdf-parser.py -f -n /path/to/file.pdf > dump.txt
,在 dump.txt 中相关部分如下所示:
所以它是一个字节串,任何换行符都按字面意思呈现为\n
. Adobe Acrobat 无法将包含此内容的 txt 文件解释为 PDF。
我现在也意识到许多元素,例如由 .%%EOF
分隔''
。
真正的问题是如何从 pdf-parser.py 获得 Acrobat 可读的输出,因为 shell 命令>
不起作用并且 shell 中的 stdout 也有问题。
我会尝试一些事情,但可能真的需要一些帮助!
php - PHP中的PdfParser问题
先感谢您
我正在使用该PdfParser
库从 PDF 中提取文本
我目前的代码如下
它运行良好,但某些 PDF 低于异常
php - 在php中通过空格读取字符串
我试图用这个库阅读\Smalot\PdfParser\Parser();
PDFlaravel 5.6
我得到了所有的内容,但我有这个:
但我需要从这些字符串中获取第二个姓氏、姓氏、姓名、地址和电话……我认为我可以获得所有数据计数空白。
我正在尝试这个:
但是这个回报:
例如,但如果我这样做:
这将返回未定义的索引 0。
我需要这些数据来创建一个数组来创建插入查询。
谢谢你的帮助,读了我,对不起我的英语。
更新
我希望这:
在我需要做数组合并之后$secondSurname, $surname and $name
做插入查询