3

我正在做一个数据库来存储我的电子书收藏。
他们中的大多数人在书本身的文本中都有 ISBN。
我怎样才能访问这些内容?
是否有任何源代码或 DLL 可以做到这一点?

4

2 回答 2

4

我是为电子书图书馆应用程序做的。首先,您需要从 chm 或 pdf 文件中提取文本。有很多实用程序\库可以做到这一点。这是一篇关于如何从 CHM 文件中提取内容的 CodeProject 文章。对于 PDF 文件,我使用了 pdftotext实用程序。当您从电子书获取纯文本时,使用正则表达式对其进行解析以查找 ISBN10/13 代码。

于 2009-01-02T11:01:55.513 回答
2

第一步是从CHMPDF文件中提取文本。接下来,您可以使用正则表达式找到 ISBN 号。

于 2009-01-02T11:02:39.570 回答