1

我需要解析大文本(大约 1000 页的 word 或 pdf 文档)并将此文档中的一些文本放入数据库字段

我发现我唯一能区分我要提取的文本是格式,它总是“Helvetica-Condensed”大小 12

我可以这样做吗?我知道如何使用字符串函数,但我应该用什么来测试格式?

正如我所说,文本存储在 Word 文档或 PDF 中

如果有第三方组件可以做没有问题,请参考我

谢谢

4

2 回答 2

1

QuickPDF。价格为 249,00 美元。

于 2009-11-25T13:46:09.773 回答
0

另一种选择是自己编写代码。该文件规范可在线获得,如果您只是试图从文档中撕下文本,这应该会指导您大部分的方式。

唯一需要注意的是完全由图像构建的文档。在那种情况下(无论您使用什么来读取文件),您还需要一个 OCR 类型的应用程序。要查看是否是这种情况,请打开您要从中“提取”文本的文件类型的示例,选择要复制的文本,然后尝试粘贴到记事本中。

于 2009-11-25T16:54:51.593 回答