问题标签 [htmlcleaner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
713 浏览

java - HtmlCleaner 在 XPather 生成的某些 xpath 上失败

我正在使用HtmlCleaner2.1库来评估XPather插件针对 html 生成的 xpath 以从中抓取内容。但有时,HtmlCleaner 无法评估 xpath。

对于前 http://www.megaoutdoors.co.uk/norwegen-army-shirt-zipped-roll-top-collar-278-p.asp

对于产品标题,XPather 给出的 xpath 是//body/div[11]/div[6]/div[2]/form/div[1]/h1 但是当我使用 HtmlCleaner 评估它时失败了。

我们怎样才能克服这个问题。htmlcleaner 清理时页面结构是否会改变?

谢谢吉滕德拉
_

0 投票
4 回答
2693 浏览

java - 使用什么库来构建 HTML 文档?

可以请任何人推荐能够做与这些库相反的事情的库吗?

HtmlCleaner、TagSoup、HtmlParser、HtmlUnit、jSoup、jTidy、nekoHtml、WebHarvest 或 Jericho。

我需要构建 html 页面,从字符串内容构建 DOM 模型。

编辑:我需要它用于测试目的。我有各种类型的输入/字符串,可能在不同地方的 html 页面中......所以我需要动态构建它......然后我根据必须满足或不满足的各种标准处理 html 页面。

我会告诉你为什么我问这个问题,考虑使用 htmlCleaner 来完成这项工作:

问题是TagNodegetText()方法,但没有setText()方法....

请添加更多关于这个问题有多模糊的评论......你能做的最好的事情

0 投票
2 回答
18365 浏览

java - 网页抓取java初学者

我是 Java 新手,我想在网络抓取和解析数据方面做得很好

是否有任何与网页抓取相关的网站可以帮助我了解 htmcleaner、web-harvest、htmlparser 等 API 的工作原理?

我仍然不够精通 Java,无法查看他们的 Javadocs 并了解他们所有的方法是如何工作的,并且在 Web 上找不到对我有帮助的 Java 代码示例(教程)。

0 投票
1 回答
404 浏览

xquery - 获取 HTML 页面中文本中的特定单词

如果我有以下 HTML 页面

我想获取特定单词,例如“你好”,并将其更改为“欢迎”,无论它们在文档中的哪个位置

你有什么建议吗?无论您使用哪种类型的解析器,我都会很高兴得到您的答案?

0 投票
1 回答
1110 浏览

java - 如何使用 HtmlCleaner 找到不在标签内的节点元素?

0 投票
1 回答
358 浏览

java - HtmlCleaner 返回“???” 解析非英文网站时

当我尝试使用HtmlCleaner解析GoogleApple等网站时,一切正常。但是当我尝试解析一个中文网站时,文本看起来像这样“???”。

是什么导致了这个问题,我该如何解决?

0 投票
0 回答
245 浏览

java - HtmlCleaner 如何处理网页中的 iframe

我想了解 HtmlCleaner 在清理原始 html 以生成有效的 xml 输出时如何处理 iframe。带有 iframe 的页面的一个示例是这个 ebay 产品页面

当我为此页面打印 HtmlCleaner 的输出时,我发现一些 iframe 标签完好无损,而另一些则丢失了。缺少的 iframe 之一是 id="d" 的 iframe。它包含产品描述,其正文已合并到主页中。

html 清理器的 XML 输出:http: //pastebin.com/03f9gtdC

任何人都可以看看它,或者建议一些更好的 HTML 解析库,它能够优雅地处理 iframe。该库应该能够支持 XPath 评估。

0 投票
2 回答
2552 浏览

java - HttpUrlConnection 获取内容的标题并获得“永久移动”

这是我用 Groovy 编写的代码,用于从 URL 中获取页面标题。然而,一些网站我得到了“永久移动”,我认为这是因为 301 重定向。如何避免这种情况并让 HttpUrlConnection 跟随正确的 URL 并获得正确的页面标题

例如这个网站我得到了“永久移动”而不是正确的页面标题 http://www.nytimes.com/2011/08/14/arts/music/jay-z-and-kanye-wests-watch-the-王座.html

0 投票
3 回答
7118 浏览

html-parsing - 从 HtmlCleaner 获取已清理的 HTML 文本

我想看看我们从 HTMLCleaner 获得的干净的 HTML。我看到在 TagNode 上有一个名为 serialize 的方法,但是不知道如何使用它。有人有任何示例代码吗?

谢谢奈恩

0 投票
2 回答
647 浏览

java - 在 Java 中解析带有兄弟标签的 HTML 内容(或)在两个标签之间查找内容标签

背景:我正在编写一个 Java 程序来遍历 HTML 文件并替换标签中没有<script><style>使用 Lorem Ipsum 的所有内容。我最初使用正则表达式执行此操作,只是删除了 > 和通过尝试在 html 上使用正则表达式,不再是宇宙的神圣性。

我正在尝试使用 HtmlCleaner,这是一个吸引我的 Java 库,因为它没有其他依赖项。但是,尝试实现它我一直无法像这样处理 html:

问题很简单。当 TagNodeVisitor 到达 div 时,如果我用适量的lipsum 替换它的内容,它将消除span 标签。但是,如果我只深入到没有其他子节点的 TagNodes,我会错过第一段文本。

HtmlCleaner 有一个 ContentNode 对象,但该对象没有替换方法。我能想到的任何处理这个问题的方法似乎都太复杂了。是否有人熟悉使用 HtmlCleaner 或您更熟悉的其他解析库来处理此问题的方法?