1

我在 scraperwiki 上有一个非常简单的 python 脚本:

import scraperwiki
import lxml.html

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html

我还没有写任何东西来解析它......现在我只想要html。

当我在编辑模式下运行它时,它工作得很好。

当计划的抓取运行(或我手动运行它)时,它会省略数十行(甚至数百行)。

这是一个非常小的网页,因此数据过载应该不是问题。有任何想法吗?

4

2 回答 2

0

听起来数据在您的变量中。尝试一次打印一行。

于 2012-03-07T14:45:19.110 回答
0

在编辑器中,单独的打印语句被汇总为一行以供显示。您可以在编辑器的控制台中单击“更多...”以查看全部内容。

当按计划运行时,它就像在任何控制台中一样输出。因此,如果 HTML 中有回车,您将得到很多行输出。

为了减少我们存储的输出量,我们从计划运行中截断大量输出。这就是您看到“[53 行,省略 159000 个字符]”的地方。

计划运行的标准输出并非真的用于调试以外的任何用途。您需要将要使用的输出保存到数据存储中。

于 2012-03-07T16:14:13.297 回答