0

我正在尝试从以下位置获取登录表单:

https://www.etoro.com/login

当我在 Chrome 中检查时,我可以看到该元素,但是当我在 Java 中使用 jaunt api 时,我无法获取表单。

userAgent = new UserAgent();
userAgent.visit("https://etoro.com/login");
List<Form> forms = userAgent.doc.getForms();
System.out.println(forms.size()); // 0

我在 HTML 方面几乎没有经验,所以任何方向都会很棒!

这是我的第一篇文章,所以如果我没有正确完成某些事情,请告诉我。

非常感谢你!

4

1 回答 1

0

好吧,你对一个简单的 Java 网络爬虫很不走运。

如果您在浏览器中查看页面的源代码,您会看到,该页面主要由一个 long 组成<script>。然后由浏览器使用 Javascript 创建整个登录表单。

如果你绝对必须抓取这个确切的形式,你需要一个可以执行 Javascript 的工具。为此,您可以使用PhantomJS。这基本上是一个完整的浏览器,可以使用 Javascript API 进行控制。

搜索 Googlephantomjs web scraping以帮助您入门。

于 2016-02-10T10:21:24.933 回答