问题标签 [htmlcleaner]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

94 问题

0 投票

1 回答

748 浏览

android - Android html解析应用程序htmlcleaner

嗨，这是我在这里的第一篇文章，我正在写它，因为我浏览了谷歌在 htmlcleaner 上知道的每个示例......而且我无法让我的项目运行；（我试图制作一个 Android 应用程序，从丰富的 Flash 网页中获取和显示数据。想法是只获取最重要的数据，这样用户就不会浪费时间、金钱处理能力、试图在智能手机上浏览这些页面的神经......它是一个国家特定的网页......因此是国家特定的应用程序。在页面上想解析有这部分

以上是一个ListItem，网页上还有其他类似的。我已经准备好用来自 li ments 的数据填充它的 java 类。一个 li 元素的一个 clss 对象。我需要从 superClass 中提取描述、价格、材料、图片链接、东西，意思是 aaa、bbb、ccc、ddd 等......最大的问题是如何做到这一点？我认为，如果我从创建一个由 li 元素组成的数组开始，我将能够进一步搜索它们中的每一个以查找我需要的子元素......但它不起作用;(

只给出第一个 li 元素，然后它在控制台中发送 nullPointerExceptions 请帮助，我绝望了 ;(;(;(

android html-parsing htmlcleaner

2011-09-13T16:40:36.590

0 投票

1 回答

982 浏览

java - 从 html 文件中获取链接

我使用 htmlcleaner 来解析 HTML 文件。这是一个 html 文件的示例。

Name我在我的代码中使用这种结构得到了这个词

;

但我不明白如何在我的示例中获取链接。我想获得链接http://exxample.com但我不知道该怎么做。

请帮我。我阅读了教程并使用了该功能，但不能。

PS对不起我的英语不好

java android html parsing htmlcleaner

2011-09-18T20:15:59.893

0 投票

1 回答

439 浏览

android - Android 中具有两个子文本节点的节点的 Xpath 表达式

我有一个示例 XML（Android 平台），我想知道获取文本节点的节点值的最简单和最有效的方法。

我可以使用 XPath 2.0 轻松获得它：

但在Android中我得到......

但是如何在没有不需要的文本的情况下在 Android 的 XPath 中选择它？

android xpath htmlcleaner

2011-09-20T12:21:52.383

0 投票

0 回答

109 浏览

javascript - 从 Windows 桌面应用程序中使用 readablity.js

我需要使用 readability.js 和 webbrowser 控件以编程方式获取网页的精简版本。

http://arc90labs-readability.googlecode.com/svn/trunk/js/readability.js

我是否必须将要剥离的网页加载到 webbrowser 控件中，然后将可读性 javascript 函数注入 HEAD 并以某种方式从那里调用它（使用 WebBrowser1.Document.parentWindow.execScript），还是有一些更简单的方法去?

只是在正确的方向寻找一个颠簸。

谢谢！

javascript webbrowser-control readability htmlcleaner

2011-09-23T19:24:48.820

0 投票

1 回答

5042 浏览

java - 如何使用 HTMLcleaner 获取元素的值

试图获取元素“a”和“span”的值。使用 HTMLCleaner。

这是代码：

据我了解，先取“div”元素，然后取他的子元素“p”，但是当我处理“a”和“span”元素值时返回空ю提示我犯错的地方。谢谢

java android htmlcleaner

2011-10-26T05:36:37.037

0 投票

1 回答

406 浏览

xpath - 嵌套节点的 xPath 表达式

我正在尝试提出一个复杂的 xPath 表达式，但我不知道该怎么做。想象一下，你有一些这样的 HTML：

想象一下，有时第二个<br>和随后的“something3”不存在。我想创建一个 xPath 表达式，它将所有跨度节点及其内容带到第一个节点，<br>以便我最终只解析“something1”。我不知道这是否可能，如果没有，有没有人知道解析所有<span>节点后的方法？

我不得不说我正在使用 HtmlParser，它是一个解析 HTML 并支持 xPath 表达式的 Java 库。

谢谢，

马夏尔

xpath htmlcleaner

2011-11-08T22:11:50.640

0 投票

1 回答

1177 浏览

whitespace - 如何
使用 JSoup 删除尾随标签？

我使用 WYSIWIG html 组件来允许我的客户输入 html 内容，并使用 JSoup 在服务器端对其进行清理。有时（取决于浏览器和用户），提交的内容包含空标签（如<p>）或空白标签（如<br />）。这些很烦人，因为出于所有意图和目的，输入都是空白的，但字符串的长度是非零的。

有谁知道是否有一个 JSoup 设置允许我剔除所有不包含内容的尾随标签？

whitespace jsoup htmlcleaner

2011-12-14T17:30:05.363

0 投票

4 回答

2910 浏览

html - 从 HTML 中提取文本 - Perl 使用 HTML::TreeBuilder

我正在尝试访问 .html 文件并提取<p>标签中的文本。从逻辑上讲，我下面的代码应该可以工作。通过使用 HTML::TreeBuilder。我解析 html，然后<p>使用 find_by_attribute("p") 提取文本。但是我的脚本出来的目录是空的。我遗漏了什么吗？

我的 .html 文件是来自 .asp 网站的纯文本 html，例如http://www.singaporemedicine.com/vn/hcp/med_evac_mtas.asp

我的 .html 文件保存在：

html perl html-content-extraction text-extraction htmlcleaner

2011-12-19T12:51:45.593

0 投票

3 回答

1293 浏览

java - xPath 表达式：获取元素，即使它们不存在

我将这个 xPath 表达式放入 htmlCleaner：

现在，我的问题是它发生了变化，有时 /a/img 元素不存在。所以我想要一个获取所有元素的表达式

当 /a/img 存在时，并且

当 /a/img 不存在时。

有谁知道如何做到这一点？我在另一个问题中发现了一些看起来可能对我有帮助的东西

但我不明白。

java xml xpath htmlcleaner

2011-12-19T21:01:32.140

0 投票

3 回答

1381 浏览

java - 从java中的文档中删除html标签的最快方法是什么？

我有一堆网络文档，想从中删除 html 标签。我在 StackOverflow 上看到了一些关于如何在 java 中执行的帖子，从 regex 到 HtmlCleaner 和 Jsoup。

我有兴趣找到最快的方法来做到这一点。我有数百万份文档，所以性能对我来说至关重要。我什至可以用一些质量来换取性能。

感谢您提前提供任何答案。

java html-parsing jsoup html htmlcleaner

2012-01-03T10:25:11.847

1 2 3 4 5 6 7 8 9 10