问题标签 [htmlcleaner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
748 浏览

android - Android html解析应用程序htmlcleaner

嗨,这是我在这里的第一篇文章,我正在写它,因为我浏览了谷歌在 htmlcleaner 上知道的每个示例......而且我无法让我的项目运行;(我试图制作一个 Android 应用程序,从丰富的 Flash 网页中获取和显示数据。想法是只获取最重要的数据,这样用户就不会浪费时间、金钱处理能力、试图在智能手机上浏览这些页面的神经......它是一个国家特定的网页......因此是国家特定的应用程序。在页面上想解析有这部分

以上是一个ListItem,网页上还有其他类似的。我已经准备好用来自 li ments 的数据填充它的 java 类。一个 li 元素的一个 clss 对象。我需要从 superClass 中提取描述、价格、材料、图片链接、东西,意思是 aaa、bbb、ccc、ddd 等......最大的问题是如何做到这一点?我认为,如果我从创建一个由 li 元素组成的数组开始,我将能够进一步搜索它们中的每一个以查找我需要的子元素......但它不起作用;(

只给出第一个 li 元素,然后它在控制台中发送 nullPointerExceptions 请帮助,我绝望了 ;(;(;(

0 投票
1 回答
982 浏览

java - 从 html 文件中获取链接

我使用 htmlcleaner 来解析 HTML 文件。这是一个 html 文件的示例。

Name我在我的代码中使用这种结构得到了这个词

;

但我不明白如何在我的示例中获取链接。我想获得链接http://exxample.com但我不知道该怎么做。

请帮我。我阅读了教程并使用了该功能,但不能。

PS对不起我的英语不好

0 投票
1 回答
439 浏览

android - Android 中具有两个子文本节点的节点的 Xpath 表达式

我有一个示例 XML(Android 平台),我想知道获取文本节点的节点值的最简单和最有效的方法。

我可以使用 XPath 2.0 轻松获得它:

但在Android中我得到......

但是如何在没有不需要的文本的情况下在 Android 的 XPath 中选择它?

0 投票
0 回答
109 浏览

javascript - 从 Windows 桌面应用程序中使用 readablity.js

我需要使用 readability.js 和 webbrowser 控件以编程方式获取网页的精简版本。

http://arc90labs-readability.googlecode.com/svn/trunk/js/readability.js

我是否必须将要剥离的网页加载到 webbrowser 控件中,然后将可读性 javascript 函数注入 HEAD 并以某种方式从那里调用它(使用 WebBrowser1.Document.parentWindow.execScript),还是有一些更简单的方法去?

只是在正确的方向寻找一个颠簸。

谢谢!

0 投票
1 回答
5042 浏览

java - 如何使用 HTMLcleaner 获取元素的值

试图获取元素“a”和“span”的值。使用 HTMLCleaner。

这是代码:

据我了解,先取“div”元素,然后取他的子元素“p”,但是当我处理“a”和“span”元素值时返回空ю提示我犯错的地方。谢谢

0 投票
1 回答
406 浏览

xpath - 嵌套节点的 xPath 表达式

我正在尝试提出一个复杂的 xPath 表达式,但我不知道该怎么做。想象一下,你有一些这样的 HTML:

想象一下,有时第二个<br>和随后的“something3”不存在。我想创建一个 xPath 表达式,它将所有跨度节点及其内容带到第一个节点,<br>以便我最终只解析“something1”。我不知道这是否可能,如果没有,有没有人知道解析所有<span>节点后的方法?

我不得不说我正在使用 HtmlParser,它是一个解析 HTML 并支持 xPath 表达式的 Java 库。

谢谢,

马夏尔

0 投票
1 回答
1177 浏览

whitespace - 如何
使用 JSoup 删除尾随标签?

我使用 WYSIWIG html 组件来允许我的客户输入 html 内容,并使用 JSoup 在服务器端对其进行清理。有时(取决于浏览器和用户),提交的内容包含空标签(如<p>)或空白标签(如<br />)。这些很烦人,因为出于所有意图和目的,输入都是空白的,但字符串的长度是非零的。

有谁知道是否有一个 JSoup 设置允许我剔除所有不包含内容的尾随标签?

0 投票
4 回答
2910 浏览

html - 从 HTML 中提取文本 - Perl 使用 HTML::TreeBuilder

我正在尝试访问 .html 文件并提取<p>标签中的文本。从逻辑上讲,我下面的代码应该可以工作。通过使用 HTML::TreeBuilder。我解析 html,然后<p>使用 find_by_attribute("p") 提取文本。但是我的脚本出来的目录是空的。我遗漏了什么吗?

我的 .html 文件是来自 .asp 网站的纯文本 html,例如http://www.singaporemedicine.com/vn/hcp/med_evac_mtas.asp

我的 .html 文件保存在:

0 投票
3 回答
1293 浏览

java - xPath 表达式:获取元素,即使它们不存在

我将这个 xPath 表达式放入 htmlCleaner:

现在,我的问题是它发生了变化,有时 /a/img 元素不存在。所以我想要一个获取所有元素的表达式

当 /a/img 存在时,并且

当 /a/img 不存在时。

有谁知道如何做到这一点?我在另一个问题中发现了一些看起来可能对我有帮助的东西

但我不明白。

0 投票
3 回答
1381 浏览

java - 从java中的文档中删除html标签的最快方法是什么?

我有一堆网络文档,想从中删除 html 标签。我在 StackOverflow 上看到了一些关于如何在 java 中执行的帖子,从 regex 到 HtmlCleaner 和 Jsoup。

我有兴趣找到最快的方法来做到这一点。我有数百万份文档,所以性能对我来说至关重要。我什至可以用一些质量来换取性能。

感谢您提前提供任何答案。