问题标签 [htmlcleaner]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

94 问题

0 投票

1 回答

713 浏览

java - HtmlCleaner 在 XPather 生成的某些 xpath 上失败

我正在使用HtmlCleaner2.1库来评估XPather插件针对 html 生成的 xpath 以从中抓取内容。但有时，HtmlCleaner 无法评估 xpath。

对于前 http://www.megaoutdoors.co.uk/norwegen-army-shirt-zipped-roll-top-collar-278-p.asp

对于产品标题，XPather 给出的 xpath 是//body/div[11]/div[6]/div[2]/form/div[1]/h1 但是当我使用 HtmlCleaner 评估它时失败了。

我们怎样才能克服这个问题。htmlcleaner 清理时页面结构是否会改变？

谢谢吉滕德拉
_

2010-12-21T15:14:35.413

0 投票

4 回答

2693 浏览

java - 使用什么库来构建 HTML 文档？

可以请任何人推荐能够做与这些库相反的事情的库吗？

HtmlCleaner、TagSoup、HtmlParser、HtmlUnit、jSoup、jTidy、nekoHtml、WebHarvest 或 Jericho。

我需要构建 html 页面，从字符串内容构建 DOM 模型。

编辑：我需要它用于测试目的。我有各种类型的输入/字符串，可能在不同地方的 html 页面中......所以我需要动态构建它......然后我根据必须满足或不满足的各种标准处理 html 页面。

我会告诉你为什么我问这个问题，考虑使用 htmlCleaner 来完成这项工作：

问题是TagNode有getText()方法，但没有setText()方法....

请添加更多关于这个问题有多模糊的评论......你能做的最好的事情

java html dom htmlcleaner

2011-05-31T19:58:24.477

0 投票

2 回答

18365 浏览

java - 网页抓取java初学者

我是 Java 新手，我想在网络抓取和解析数据方面做得很好

是否有任何与网页抓取相关的网站可以帮助我了解 htmcleaner、web-harvest、htmlparser 等 API 的工作原理？

我仍然不够精通 Java，无法查看他们的 Javadocs 并了解他们所有的方法是如何工作的，并且在 Web 上找不到对我有帮助的 Java 代码示例（教程）。

java web-scraping html-parsing webharvest htmlcleaner

2011-06-22T20:47:22.600

0 投票

1 回答

404 浏览

xquery - 获取 HTML 页面中文本中的特定单词

如果我有以下 HTML 页面

我想获取特定单词，例如“你好”，并将其更改为“欢迎”，无论它们在文档中的哪个位置

你有什么建议吗？无论您使用哪种类型的解析器，我都会很高兴得到您的答案？

xquery html-parsing jericho-html-parser htmlcleaner

2011-07-07T14:00:17.997

0 投票

1 回答

1110 浏览

java - 如何 使用 HtmlCleaner 找到不在标签内的节点元素？

java data-mining htmlcleaner

2011-07-20T09:49:18.093

0 投票

1 回答

358 浏览

java - HtmlCleaner 返回“？？？” 解析非英文网站时

当我尝试使用HtmlCleaner解析 Google或Apple等网站时，一切正常。但是当我尝试解析一个中文网站时，文本看起来像这样“？？？”。

是什么导致了这个问题，我该如何解决？

java unicode character-encoding htmlcleaner

2011-07-22T08:10:22.660

0 投票

0 回答

245 浏览

java - HtmlCleaner 如何处理网页中的 iframe

我想了解 HtmlCleaner 在清理原始 html 以生成有效的 xml 输出时如何处理 iframe。带有 iframe 的页面的一个示例是这个 ebay 产品页面。

当我为此页面打印 HtmlCleaner 的输出时，我发现一些 iframe 标签完好无损，而另一些则丢失了。缺少的 iframe 之一是 id="d" 的 iframe。它包含产品描述，其正文已合并到主页中。

html 清理器的 XML 输出：http: //pastebin.com/03f9gtdC

任何人都可以看看它，或者建议一些更好的 HTML 解析库，它能够优雅地处理 iframe。该库应该能够支持 XPath 评估。

java htmlcleaner

2011-08-04T10:30:29.603

0 投票

2 回答

2552 浏览

java - HttpUrlConnection 获取内容的标题并获得“永久移动”

这是我用 Groovy 编写的代码，用于从 URL 中获取页面标题。然而，一些网站我得到了“永久移动”，我认为这是因为 301 重定向。如何避免这种情况并让 HttpUrlConnection 跟随正确的 URL 并获得正确的页面标题

例如这个网站我得到了“永久移动”而不是正确的页面标题 http://www.nytimes.com/2011/08/14/arts/music/jay-z-and-kanye-wests-watch-the-王座.html

java http groovy htmlcleaner

2011-08-14T09:06:55.197

0 投票

3 回答

7118 浏览

html-parsing - 从 HtmlCleaner 获取已清理的 HTML 文本

我想看看我们从 HTMLCleaner 获得的干净的 HTML。我看到在 TagNode 上有一个名为 serialize 的方法，但是不知道如何使用它。有人有任何示例代码吗？

谢谢奈恩

html-parsing htmlcleaner

2011-08-25T19:03:52.420

0 投票

2 回答

647 浏览

java - 在 Java 中解析带有兄弟标签的 HTML 内容（或）在两个标签之间查找内容标签

背景：我正在编写一个 Java 程序来遍历 HTML 文件并替换标签中没有<script>或<style>使用 Lorem Ipsum 的所有内容。我最初使用正则表达式执行此操作，只是删除了 > 和通过尝试在 html 上使用正则表达式，不再是宇宙的神圣性。

我正在尝试使用 HtmlCleaner，这是一个吸引我的 Java 库，因为它没有其他依赖项。但是，尝试实现它我一直无法像这样处理 html：

问题很简单。当 TagNodeVisitor 到达 div 时，如果我用适量的lipsum 替换它的内容，它将消除span 标签。但是，如果我只深入到没有其他子节点的 TagNodes，我会错过第一段文本。

HtmlCleaner 有一个 ContentNode 对象，但该对象没有替换方法。我能想到的任何处理这个问题的方法似乎都太复杂了。是否有人熟悉使用 HtmlCleaner 或您更熟悉的其他解析库来处理此问题的方法？

java html parsing nested htmlcleaner

2011-08-29T01:38:12.997

1 2 3 4 5 6 7 8 9 10

问题标签 [htmlcleaner]

Reference