0

我想从这个网站https://www.theice.com/coal.jhtml解析元素。具体来说,表中的值:

<table class="default condensed">我想提取每一行并将其存储在我的程序中。我知道我可以使用它BeautifulSoup来搜索所有<tr class="(odd|even)">标签并存储该信息。但我想知道是否有更简单的方法可以做到这一点。例如,一些网站有 JSON 加载数据字段,但在这种情况下我找不到它。有没有类似的东西可以用于这个网站的条目?

4

1 回答 1

2

这对 SO 来说不是一个好问题,因为答案是针对一个网站的。快速浏览网站让我相信该表是在服务器端构建的。

一般来说,这里有一些方法可以确定是否可以直接调用服务器而不是解析 HTML...

(1) 是否有容易找到/读取发出 AJAX 请求的 JavaScript?如果是这样,你能破译请求的参数是什么意思吗?

(2) 使用 Chrome 或 Firefox 中的开发人员工具查看页面是否正在请求看起来像数据的文件(例如 XML、CSV)。我在这里没有看到(再次,我快速查看)。

最后,如果适用,请尊重使用条款和 robots.txt。创建有价值的网站需要大量的工作,让人们在未经许可的情况下拿走东西是很烦人的,特别是如果他们打算从他们收集的信息中获利的话。快速浏览您的网站表明您在这里很清楚。

BeautifulSoup很棒。我更喜欢lxml,你也可能喜欢。

于 2013-06-13T01:13:12.843 回答