我正在制作一个 Java 程序,其中涉及从网页中提取标签。对于解析,我正在使用 Jsoup,它工作正常。但是下载页面中的标签数量存在一些问题。我有 4 个文件:-
- goog1.htm(我通过浏览器从https://www.google.co.in保存)
- goog2.html(我使用命令“wget https://www.google.co.in ”下载)
- goog3.html(我使用 BufferedReader 和 InputStreamReader 通过我的 Java 程序下载)
- goog4.html(我通过从“查看源代码:https ://www.google.co.in/ ”复制整个代码得到)
当我在这 4 个文件中搜索字符串“< script/>”时,都给出了不同的结果。
- goog1.htm - 16 次
- goog2.html - 5 次
- goog3.html - 5 次
- goog4.html - 10 次
这种差异的原因是什么?如何从页面中获取所有脚本标签?
我应该使用哪个文件来测试我的程序?
提前致谢...