1

我正在尝试从http://www.nationwide.com/locator/home/index.x?lineOfBusiness=insurance_agent&locatorhome=fromhome&language=那里列出的每个州获取所有数据。基本上是姓名,地址,电子邮件等。

我的问题是:

  1. 没有 URL 参数可供我从下拉列表中遍历状态。

我愿意手动遍历状态,但是有什么方法可以只在一个 div 上选择并从所有类似的 DIV 复制内容/文本。我的意思是你可以看到那里有一个标签,里面有完整的内容。如何从标签内所有出现的文本中提取文本?

我对任何脚本语言、Php、perl python 甚至一个简单的 firefox 插件都不特别...我只需要结果。请问有什么指导吗?


我尝试使用网络收获

<?xml version="1.0" encoding="UTF-8"?>

<config charset="ISO-8859-1">
     <!-- sends post request with state name -->
     <http>
        <http method="post" url="http://www.nationwide.com/locator/home/index.x?lineOfBusiness=insurance_agent&locatorhome=fromhome&language=">
        <http-param name="state">AL</http-param>
        <http-param name="searchType">proximity_search</http-param>
        <http-param name="requestSource">home_NI</http-param>
        <http-param name="businessType">NI</http-param>
        <http-param name="language">en</http-param>
        <http-param name="UserAddressCookieAction">createUserAddressCookie</http-param>
    </http>
      <!-- collects content inside address tag -->


</config>
4

2 回答 2

0

我无法加载您的页面,但我仍然可以提供帮助。你可以使用一个很棒的软件:

http://jsoup.org/

用于自动抓取此数据。但是,您必须编写一个小型 Java 程序。要获得 css 选择器(这就是您可以抓取的基础),您可以在 firefox 中使用 Firebug 插件。

如果你不想写 Java 代码,你可以使用另一个很棒的工具:

http://web-harvest.sourceforge.net/

在他们的页面上,您可以看到很多示例,甚至使用 post 方法。

如果您需要更多帮助,请告诉我!

于 2012-08-21T08:14:02.930 回答
0

您可以使用 irobotsoft 刮刀。在此处查看演示:

http://irobotsoft.com/help/

要遍历下拉列表,您可以关注此线程:

http://irobotsoft.org/bb/YaBB.pl?num=1248753202

于 2012-08-21T19:57:30.440 回答