java - 如何从网页中提取源 html？

Question

我正在尝试提取此页面的 html 源，http://www.fxstreet.com/rates-charts/currency-rates/

我想要将 chrome 中的页面保存为 .html 文件时看到的内容。

我尝试在 java 中执行此操作，使用 bufferedreader，然后使用 jsoup。我也尝试在 python 中执行此操作，但是我不断收到以下消息：

“此站点需要启用 JavaScript 和 Cookie。请更改您的浏览器设置或升级您的浏览器。”

最终目标是提取主表中的值。

score 4 · Accepted Answer

尝试使用HtmlUnit并设置setJavascriptEnabled(true)

也看看：这个和这个

JSoup 不是执行 Javascript 的无头浏览器，因此您必须选择其他库来获取页面，然后您才能使用 JSoup 对其进行解析。

score 1 · Accepted Answer

只需使用 Jsoup 即可轻松提取主表

这是一种从页面上的主表中获取所有内容的方法

public void parse(){
        try{

        Document doc = Jsoup.connect("http://www.fxstreet.com/rates-charts/currency-rates/").get();
        Element content = doc.getElementById("ddlPairsChoose");
        Elements table = doc.getElementsByClass("applet-content");      

        System.out.print(table);

        }

        catch(Exception e){

            System.out.print("error --> " + e);
        }       
    }

它在页面上打印出表格

java - 如何从网页中提取源 html？

2 回答 2

Related

Reference