1

我一直在尝试获取 IIHF PDF(例如:http: //stats.iihf.com/Hydra/349/IHM349131_74_3_0.pdf)转换为可解析的形式。

现在我终于做到了,因为 Google 的缓存存储了它的 HTML 版本(http://webcache.googleusercontent.com/search?q=cache:http://stats.iihf.com/Hydra/349/IHM349131_74_3_0。 pdf),它可以很容易地解析。

唯一的问题是,谷歌不会缓存他们拥有的每一个 PDF,即使他们缓存了一个文件,也可能需要几天的时间才能出现在那里。

有没有办法通过任何 API 甚至手动获取这些 HTML 版本?

编辑:这些 PDF 以某种方式损坏了字符映射,因此普通的 PDF 到 HTML 转换器无法转换它们。忘了说。

4

0 回答 0