python - 使用 selectorgadget.com 解析 HTML 文件

Question

我如何使用漂亮的汤和选择器小工具来抓取网站。例如，我有一个网站 - （一个新蛋产品），我希望我的脚本返回该产品的所有规格（点击规格），我的意思是 - 英特尔、台式机、......、2.4GHz , 1066Mhz, ...... , 3 年有限。

使用 selectorgadget 后，我得到了字符串- .desc

我该如何使用它？

谢谢：）

score 1 · Accepted Answer

检查页面，我可以看到规范放置在 ID 为 pcraSpecs 的 div 中：

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

desc 是表格单元格的类。

您要做的是提取此表的内容。

soup.find(id="pcraSpecs").findAll("td")应该让你开始。

score 0 · Accepted Answer

0

您是否尝试过使用 Feedity - http://feedity.com从任何网页创建自定义 RSS 提要。

于 2009-02-27T02:58:36.230 回答

python - 使用 selectorgadget.com 解析 HTML 文件

2 回答 2

Related

Reference