问题标签 [jsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何“扫描”网站(或页面)以获取信息,并将其带入我的程序?
好吧,我非常想弄清楚如何从网页中提取信息,并将其带入我的程序(在 Java 中)。
例如,如果我知道我想从中获取信息的确切页面,为了简单起见,百思买商品页面,我如何从该页面获取我需要的适当信息?喜欢标题,价格,描述?
这个过程甚至会被称为什么?我什至不知道要开始研究这个。
编辑:好的,我正在对 JSoup(BalusC 发布的那个)进行测试,但我不断收到此错误:
我确实有 Apache Commons
java - 如何在 Android 中将字符串转换为 UTF-8?
我正在使用一个名为 Jsoup 的 HTML 解析器来加载和解析 HTML 文件。问题是我正在抓取的网页ISO-8859-1
在 Android 使用UTF-8
编码(?)时以字符集编码。这导致某些字符显示为问号。
所以现在我想我应该将字符串转换为 UTF-8 格式。
现在我在 Android SDK 中找到了这个名为CharsetEncoder的类,我想这对我有帮助。但是我不知道如何在实践中实现它,所以我想知道是否可以通过一个实际的例子来获得帮助。
更新:读取数据的代码(Jsoup)
java - Jsoup图像标签提取
我需要使用 jsoup 从此 html 中提取图像标签
我需要提取这个 img 标签的 src ...我正在使用这个代码我得到空值
java - jsoup标签提取
如何从这个html中提取标签
如何使用 jsoup 提取此 html 代码中的 5 和 8....请帮助我
java - jsoup标签提取问题
测试:示例
测试1:示例1
我如何从这个html标签中提取值示例和示例1..使用jsoup ..
java - 外部库会使应用程序变慢吗?
我正在构建一个从网页中抓取信息的应用程序。为此,我选择使用名为Jsoup的 html 抓取工具,因为它使用起来非常简单。Jsoup 也依赖于 Apache Commons Lang 库。(它们总共构成 385kB )。所以 Jsoup 将用于下载页面并解析它。
我的问题是,如果使用这些简化库而不是使用 Android 内置库,是否会使我的应用程序变慢?(在下载数据和解析方面)。
我在想内部库会针对 Android 进行优化。
java - 哪些包必须导入?
伙计们,在上面的程序中,在执行时我发现了这些错误。如何解决?我已经在我的文件夹位置下载了 Jsoup.jar 文件。我还应该做什么?
java - 仅识别有关新闻稿页面的链接
我的任务是找到给定链接的实际新闻稿链接。比如说http://www.apple.com/pr/。
我的工具必须从上述 URL 中单独找到新闻稿链接,不包括在该站点中找到的其他广告链接、标签链接(或其他任何内容)。
开发了下面的程序,结果是给定网页中存在的所有链接。
如何修改以下程序以仅从给定 URL 中找到新闻稿链接?另外,我希望该程序具有通用性,以便它可以识别来自任何新闻稿 URL(如果给出)的新闻稿链接。
java - 如何只解析 HTML 中的文本
如何使用 java 使用 jsoup 仅解析网页中的文本?
java - 在 Java 中将 HTML 转换为纯文本
我需要将 HTML 转换为纯文本。我对格式的唯一要求是在纯文本中保留新行。新行不仅应该在 的情况下显示,<br>
而且其他标签也应该显示,例如<tr/>
,</p>
也导致新行。
用于测试的示例 HTML 页面是:
- http://www.particle.kth.se/~lindsey/JavaCourse/Book/Part1/Java/Chapter09/scannerConsole.html
- http://www.javadb.com/write-to-file-using-bufferedwriter
请注意,这些只是随机 URL。
我已经尝试了这个 StackOverflow 问题的答案中提到的各种库(JSoup、Javax.swing、Apache utils),以将 HTML 转换为纯文本。
使用 JSoup 的示例:
HTMLEditorKit 示例: