0

我正在从 IEEEXplore 中获取一些数据 PDF、图块和链接。

所以最近当我抓取这个网站(使用 Python 和斜纹模块)时,我得到了类似的内容:

��7���j��/�5�,X��]����O�s˟�����U|]�l
��c��qLE�[����:yg�u%��_�9e�;�4��^�kt)j�Te���:OX���[��u����B���-]?t�C���m/��ά��Ҋ��n�'��}'�Ù�ف{�S;�ƣ������3�dS��M[m

那么为什么会这样!我怀疑页面的编码。!

代码很大,但我在这里插入了其中的一部分:

你可以在这里看到代码:

https://github.com/power-electro/test-ieeexplore-scraper/blob/master/ieeexplore_ieee_org.py

因此,可以通过以下链接访问本网站的 ELsevier 版本的免费 PDF 文件:

http://free-papers.elasa.ir

4

2 回答 2

0

查看输出的其余部分会很有趣,但我的猜测是,所有那些难以阅读的杂乱无章的东西实际上都是图像文件或视频文件或其他东西。当我们尝试 HTTP GET 并将它们打印为文本时,图像和视频文件看起来非常奇怪。我的猜测是,您想要的普通网站抓取内容(文本、html 等)也在其中。

于 2016-05-30T18:37:39.103 回答
0

我找到了我删除的答案:是其标题的一部分:

 t_com.add_extra_header('Accept-Encoding', 'gzip, deflate')

此数据或 Gziped 数据。!!!

我通过以下代码解压缩数据:

                content1 = t_brw.result.page
                # print 'debug twill post content:', content
                import StringIO
                content1 = StringIO.StringIO(content1)
                import gzip
                gzipper = gzip.GzipFile(fileobj=content1)
                content = gzipper.read()
于 2016-05-30T19:10:07.647 回答