php - 通过 Google 将 PDF 转为 HTML？

翻译自：https://stackoverflow.com/questions/16319324 2013-05-01T13:48:00.017

1321 次

1

我一直在尝试获取 IIHF PDF（例如：http: //stats.iihf.com/Hydra/349/IHM349131_74_3_0.pdf）转换为可解析的形式。

现在我终于做到了，因为 Google 的缓存存储了它的 HTML 版本（http://webcache.googleusercontent.com/search?q=cache:http://stats.iihf.com/Hydra/349/IHM349131_74_3_0。 pdf），它可以很容易地解析。

唯一的问题是，谷歌不会缓存他们拥有的每一个 PDF，即使他们缓存了一个文件，也可能需要几天的时间才能出现在那里。

有没有办法通过任何 API 甚至手动获取这些 HTML 版本？

编辑：这些 PDF 以某种方式损坏了字符映射，因此普通的 PDF 到 HTML 转换器无法转换它们。忘了说。

0 回答 0