问题标签 [htmlcleaner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - Android html解析应用程序htmlcleaner
嗨,这是我在这里的第一篇文章,我正在写它,因为我浏览了谷歌在 htmlcleaner 上知道的每个示例......而且我无法让我的项目运行;(我试图制作一个 Android 应用程序,从丰富的 Flash 网页中获取和显示数据。想法是只获取最重要的数据,这样用户就不会浪费时间、金钱处理能力、试图在智能手机上浏览这些页面的神经......它是一个国家特定的网页......因此是国家特定的应用程序。在页面上想解析有这部分
以上是一个ListItem,网页上还有其他类似的。我已经准备好用来自 li ments 的数据填充它的 java 类。一个 li 元素的一个 clss 对象。我需要从 superClass 中提取描述、价格、材料、图片链接、东西,意思是 aaa、bbb、ccc、ddd 等......最大的问题是如何做到这一点?我认为,如果我从创建一个由 li 元素组成的数组开始,我将能够进一步搜索它们中的每一个以查找我需要的子元素......但它不起作用;(
只给出第一个 li 元素,然后它在控制台中发送 nullPointerExceptions 请帮助,我绝望了 ;(;(;(
java - 从 html 文件中获取链接
我使用 htmlcleaner 来解析 HTML 文件。这是一个 html 文件的示例。
Name
我在我的代码中使用这种结构得到了这个词
;
但我不明白如何在我的示例中获取链接。我想获得链接http://exxample.com但我不知道该怎么做。
请帮我。我阅读了教程并使用了该功能,但不能。
PS对不起我的英语不好
android - Android 中具有两个子文本节点的节点的 Xpath 表达式
我有一个示例 XML(Android 平台),我想知道获取文本节点的节点值的最简单和最有效的方法。
我可以使用 XPath 2.0 轻松获得它:
但在Android中我得到......
但是如何在没有不需要的文本的情况下在 Android 的 XPath 中选择它?
javascript - 从 Windows 桌面应用程序中使用 readablity.js
我需要使用 readability.js 和 webbrowser 控件以编程方式获取网页的精简版本。
http://arc90labs-readability.googlecode.com/svn/trunk/js/readability.js
我是否必须将要剥离的网页加载到 webbrowser 控件中,然后将可读性 javascript 函数注入 HEAD 并以某种方式从那里调用它(使用 WebBrowser1.Document.parentWindow.execScript),还是有一些更简单的方法去?
只是在正确的方向寻找一个颠簸。
谢谢!
java - 如何使用 HTMLcleaner 获取元素的值
试图获取元素“a”和“span”的值。使用 HTMLCleaner。
这是代码:
据我了解,先取“div”元素,然后取他的子元素“p”,但是当我处理“a”和“span”元素值时返回空ю提示我犯错的地方。谢谢
xpath - 嵌套节点的 xPath 表达式
我正在尝试提出一个复杂的 xPath 表达式,但我不知道该怎么做。想象一下,你有一些这样的 HTML:
想象一下,有时第二个<br>
和随后的“something3”不存在。我想创建一个 xPath 表达式,它将所有跨度节点及其内容带到第一个节点,<br>
以便我最终只解析“something1”。我不知道这是否可能,如果没有,有没有人知道解析所有<span>
节点后的方法?
我不得不说我正在使用 HtmlParser,它是一个解析 HTML 并支持 xPath 表达式的 Java 库。
谢谢,
马夏尔
whitespace - 如何
使用 JSoup 删除尾随标签?
我使用 WYSIWIG html 组件来允许我的客户输入 html 内容,并使用 JSoup 在服务器端对其进行清理。有时(取决于浏览器和用户),提交的内容包含空标签(如<p>
)或空白标签(如<br />
)。这些很烦人,因为出于所有意图和目的,输入都是空白的,但字符串的长度是非零的。
有谁知道是否有一个 JSoup 设置允许我剔除所有不包含内容的尾随标签?
html - 从 HTML 中提取文本 - Perl 使用 HTML::TreeBuilder
我正在尝试访问 .html 文件并提取<p>
标签中的文本。从逻辑上讲,我下面的代码应该可以工作。通过使用 HTML::TreeBuilder。我解析 html,然后<p>
使用 find_by_attribute("p") 提取文本。但是我的脚本出来的目录是空的。我遗漏了什么吗?
我的 .html 文件是来自 .asp 网站的纯文本 html,例如http://www.singaporemedicine.com/vn/hcp/med_evac_mtas.asp
我的 .html 文件保存在:
java - xPath 表达式:获取元素,即使它们不存在
我将这个 xPath 表达式放入 htmlCleaner:
现在,我的问题是它发生了变化,有时 /a/img 元素不存在。所以我想要一个获取所有元素的表达式
当 /a/img 存在时,并且
当 /a/img 不存在时。
有谁知道如何做到这一点?我在另一个问题中发现了一些看起来可能对我有帮助的东西
但我不明白。
java - 从java中的文档中删除html标签的最快方法是什么?
我有一堆网络文档,想从中删除 html 标签。我在 StackOverflow 上看到了一些关于如何在 java 中执行的帖子,从 regex 到 HtmlCleaner 和 Jsoup。
我有兴趣找到最快的方法来做到这一点。我有数百万份文档,所以性能对我来说至关重要。我什至可以用一些质量来换取性能。
感谢您提前提供任何答案。