python - 为什么 scraperwiki 会从抓取的 html 中省略行？

Question

我在 scraperwiki 上有一个非常简单的 python 脚本：

import scraperwiki
import lxml.html

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html

我还没有写任何东西来解析它......现在我只想要html。

当我在编辑模式下运行它时，它工作得很好。

当计划的抓取运行（或我手动运行它）时，它会省略数十行（甚至数百行）。

这是一个非常小的网页，因此数据过载应该不是问题。有任何想法吗？

score 0 · Accepted Answer

0

听起来数据在您的变量中。尝试一次打印一行。

于 2012-03-07T14:45:19.110 回答

score 0 · Accepted Answer

在编辑器中，单独的打印语句被汇总为一行以供显示。您可以在编辑器的控制台中单击“更多...”以查看全部内容。

当按计划运行时，它就像在任何控制台中一样输出。因此，如果 HTML 中有回车，您将得到很多行输出。

为了减少我们存储的输出量，我们从计划运行中截断大量输出。这就是您看到“[53 行，省略 159000 个字符]”的地方。

计划运行的标准输出并非真的用于调试以外的任何用途。您需要将要使用的输出保存到数据存储中。

2 回答 2