Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在做一个数据库来存储我的电子书收藏。 他们中的大多数人在书本身的文本中都有 ISBN。 我怎样才能访问这些内容? 是否有任何源代码或 DLL 可以做到这一点?
我是为电子书图书馆应用程序做的。首先,您需要从 chm 或 pdf 文件中提取文本。有很多实用程序\库可以做到这一点。这是一篇关于如何从 CHM 文件中提取内容的 CodeProject 文章。对于 PDF 文件,我使用了 pdftotext实用程序。当您从电子书获取纯文本时,使用正则表达式对其进行解析以查找 ISBN10/13 代码。
第一步是从CHM和PDF文件中提取文本。接下来,您可以使用正则表达式找到 ISBN 号。