1

我正在尝试提取此页面的 html 源,http://www.fxstreet.com/rates-charts/currency-rates/

我想要将 chrome 中的页面保存为 .html 文件时看到的内容。

我尝试在 java 中执行此操作,使用 bufferedreader,然后使用 jsoup。我也尝试在 python 中执行此操作,但是我不断收到以下消息:

“此站点需要启用 JavaScript 和 Cookie。请更改您的浏览器设置或升级您的浏览器。”

最终目标是提取主表中的值。

4

2 回答 2

4

尝试使用HtmlUnit并设置setJavascriptEnabled(true)

也看看:这个这个

JSoup 不是执行 Javascript 的无头浏览器,因此您必须选择其他库来获取页面,然后您才能使用 JSoup 对其进行解析。

于 2012-06-01T21:51:22.467 回答
1

只需使用 Jsoup 即可轻松提取主表

这是一种从页面上的主表中获取所有内容的方法

public void parse(){
        try{

        Document doc = Jsoup.connect("http://www.fxstreet.com/rates-charts/currency-rates/").get();
        Element content = doc.getElementById("ddlPairsChoose");
        Elements table = doc.getElementsByClass("applet-content");      

        System.out.print(table);

        }

        catch(Exception e){

            System.out.print("error --> " + e);
        }       
    }

它在页面上打印出表格

于 2012-12-09T15:56:57.243 回答