0

作为我的第一个 python 编码项目,我想使用 python 从 BMJ 等期刊中的文章创建 epub 文件。

我从BMJ RSS 中提取链接feedparser,使用beautifulsoup来捕获我需要的 html 文件中的组件,然后按照链接中的说明创建一个 epub 文件。

可以创建EPUB文件,但不是一些epub阅读器认为文件损坏,例如windows和android的coolreader什么都不显示,而android版本甚至意外退出程序。

我猜 epub 的一些“声明”是不正确的,导致这个问题,但我不知道如何解决它。

我在 R 中有一些编码经验,并使用该XML包进行了一些网络抓取,但没有 EPUB 格式的经验。

4

2 回答 2

2

尝试在您的书上运行 epubcheck。那是为了什么。请参阅https://code.google.com/p/epubcheck/。最新版本非常详细。很难想象一个电子阅读器会被一本通过 epubcheck 的书呛到。或者,换一种说法,如果电子阅读器被一本通过 epubcheck 的书卡住了,那么这可能是电子阅读器中的一个错误。

您可能还想查看https://code.google.com/p/python-epub-builder/。我怀疑它是否会创建损坏的 epub。

于 2013-06-15T14:04:31.903 回答
0

calibre的转换设置中,有一个设置将源文件拆分为 280kb 的页面(同一 epub 存档中的多个小 html 文件)。IIRC,它说许多电子书阅读器无法处理太大的 html,应该将其拆分为较小的文件。也许您应该检查该字段约束。

于 2019-09-18T02:48:30.050 回答