我想从这个网站https://www.theice.com/coal.jhtml解析元素。具体来说,表中的值:
<table class="default condensed">
我想提取每一行并将其存储在我的程序中。我知道我可以使用它BeautifulSoup
来搜索所有<tr class="(odd|even)">
标签并存储该信息。但我想知道是否有更简单的方法可以做到这一点。例如,一些网站有 JSON 加载数据字段,但在这种情况下我找不到它。有没有类似的东西可以用于这个网站的条目?
我想从这个网站https://www.theice.com/coal.jhtml解析元素。具体来说,表中的值:
<table class="default condensed">
我想提取每一行并将其存储在我的程序中。我知道我可以使用它BeautifulSoup
来搜索所有<tr class="(odd|even)">
标签并存储该信息。但我想知道是否有更简单的方法可以做到这一点。例如,一些网站有 JSON 加载数据字段,但在这种情况下我找不到它。有没有类似的东西可以用于这个网站的条目?
这对 SO 来说不是一个好问题,因为答案是针对一个网站的。快速浏览网站让我相信该表是在服务器端构建的。
一般来说,这里有一些方法可以确定是否可以直接调用服务器而不是解析 HTML...
(1) 是否有容易找到/读取发出 AJAX 请求的 JavaScript?如果是这样,你能破译请求的参数是什么意思吗?
(2) 使用 Chrome 或 Firefox 中的开发人员工具查看页面是否正在请求看起来像数据的文件(例如 XML、CSV)。我在这里没有看到(再次,我快速查看)。
最后,如果适用,请尊重使用条款和 robots.txt。创建有价值的网站需要大量的工作,让人们在未经许可的情况下拿走东西是很烦人的,特别是如果他们打算从他们收集的信息中获利的话。快速浏览您的网站表明您在这里很清楚。
BeautifulSoup很棒。我更喜欢lxml,你也可能喜欢。