问题标签 [pdf-manipulation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - C#屏蔽或隐藏或删除或编辑pdf文件中的某些区域
目前我们有一个由客户调用的网络服务来获取 pdf 文件。网络服务到另一个系统去获取那个文件,以十六进制格式返回。然后,我们的 Web 服务将 Hex 字符串转换为字节,然后使用 pdf 文件响应客户端,如下所示:
但是现在我们需要找到一种方法来掩盖或隐藏或编辑或完全删除文件中的某些内容,基本上是一些基于用户类型的敏感信息,然后再将其发送给客户。这必须是实时的,就像以前我们没有屏蔽要求一样。
目前假设隐藏/屏蔽/删除/编辑基于文件的特定位置区域。就像识别左上、右上、右下、左下矩形区域一样。另一件事是,可能有不止一个这样的矩形区域。
或者,如果 PDF 有任何Line Numbers的概念,我们可以在可行的情况下使用它,例如文件的第 5、6、7、8、9 行掩码,从 Left-0 到 Right-n。
Q1 - 核心问题是如何使用任何开源和免费库、API、SDK 来实现这一点?还是从头开始定制开发?或者必须选择像 PDFTron 这样的付费选项(这似乎只适用于 Windows 应用程序)https://www.pdftron.com/documentation/samples/cs/PDFRedactTest?platforms=dotnet。
或 SyncFusion https://www.syncfusion.com/blogs/post/easy-ways-to-redact-pdfs-using-c.aspx
Q2 - 我想到的第二个实际上更关键的问题是,实时执行此操作是否是一个好主意?可以在 500 毫秒内完成吗?
python-3.x - PDFMiner:如何仅提取正文
我使用以下代码将 PDF 转换为文本文件。但是,我只对文档的正文感兴趣,没有数字、没有页码、没有表格、没有标题、没有公式等。
但它给了我一堆文本,其中一些是从表格或公式中提取的短行。我希望用户可以阅读生成的文本,而无需在文本模式下显示的内容。
另一个问题是它把句子分成多行,所以我会放宽句子的界限。我想有完整的句子没有中断。
我玩了一些选项,例如“all_text = False”,但没有成功。