screen-scraping - Web数据抓取查询

Question

我正在尝试从http://www.nationwide.com/locator/home/index.x?lineOfBusiness=insurance_agent&locatorhome=fromhome&language=那里列出的每个州获取所有数据。基本上是姓名，地址，电子邮件等。

我的问题是：

没有 URL 参数可供我从下拉列表中遍历状态。

我愿意手动遍历状态，但是有什么方法可以只在一个 div 上选择并从所有类似的 DIV 复制内容/文本。我的意思是你可以看到那里有一个标签，里面有完整的内容。如何从标签内所有出现的文本中提取文本？

我对任何脚本语言、Php、perl python 甚至一个简单的 firefox 插件都不特别...我只需要结果。请问有什么指导吗？

我尝试使用网络收获

<?xml version="1.0" encoding="UTF-8"?>

<config charset="ISO-8859-1">
     <!-- sends post request with state name -->
     <http>
        <http method="post" url="http://www.nationwide.com/locator/home/index.x?lineOfBusiness=insurance_agent&locatorhome=fromhome&language=">
        <http-param name="state">AL</http-param>
        <http-param name="searchType">proximity_search</http-param>
        <http-param name="requestSource">home_NI</http-param>
        <http-param name="businessType">NI</http-param>
        <http-param name="language">en</http-param>
        <http-param name="UserAddressCookieAction">createUserAddressCookie</http-param>
    </http>
      <!-- collects content inside address tag -->


</config>