问题标签 [htmlcleaner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 在 JAVA 中删除 HTML 中的多余空间
需要执行一些 HTML 清理。
有很多多余的 br 标签的 HTML,到目前为止尝试 HtmlCleaner 和 jTidy 没有任何结果。
例子:
我想要的只是得到一个单一的<br>
回报
还有其他方法可以在不逐行手动解析的情况下完成此操作吗?
htmlcleaner - 使用 htmlcleaner 清理 html 代码片段而不是整个文档
我正在使用 org.htmlcleaner
我正在添加一些用户生成的 html 并想清理它。但是当我这样做时:
cleanHTML 添加了 body 和 html 标签。是否有不添加这些的标志或属性。我在这里找不到它们http://htmlcleaner.sourceforge.net/parameters.php#transform
谢谢
java - 如何在 Android Studio 1.1 中将 JAR (HTMLCleaner) 添加到项目中?
我花了无数个小时试图在 Android Stuio 1.1 中的项目中添加一个简单的 JAR (HTMLCleaner),但无济于事。我通过接口(文件 > 新模块 > 导入 JAR ...)将 JAR 作为模块导入,将其添加为我的应用程序模块的依赖项,甚至在我的 AndroidManifest.xml <uses-library 等中引用它... >。
当我尝试“导入 org.htmlcleaner;”时 在我的任何课程中,我都会收到“无法解决符号错误”。我已经研究并尝试了每一个排列和组合中的每一个建议。任何人都可以提供有关正确方法的其他方向或分步教程吗?
java - 使用java在html页面内容中查找元素的Xpath
我是 xpath 表达式的初学者,
我有以下网址:
它包含 html 页面内容,使用以下 xpath 会在 javascript 中产生相同的 ul 元素:
//*[@id="moreStock_5257711"]
//*[@id="priceWrap"]/div[1]/div/a/following-sibling::ul
//html/body/div/div/div/div/div/div/div/div/div/div/a/following-sibling::ul
使用这个 xpaths 我应该如何在 java 中获得相同的 ul 元素
我曾尝试使用“html 清洁器”,但它在 xpath 中失败了 -
它适用于“//* [@id ='moreStock_5257711']”这个xpath。所以下面我在html清洁器中尝试过的代码
我要求所有 xpath 都应该使用 java 中的一个包
任何人都可以建议我使用 java 获取 ul 元素的所有 xpaths 表达式。
感谢您的提前问候。
javascript - 将 AngularJs 脚本列表从 HTML 代码中取出
我有一长串控制器、服务、工厂、指令等文件,我不想在 HTML<script>
的头部或正文中使用这个长长的列表。有没有办法把它们放在某个地方,让我的代码看起来更干净?
php - 去除 HTML 和恶意代码,在 PHP 中留下标点符号和外语
一个人建议用一个衬里替换整个脚本:
但这会导致 $_GET 命令出错 - 未知变量 ID
我正在寻找的是删除所有 HTML 代码和奇怪字符的最简单脚本,用空格替换回车并留下点逗号和感叹号等标点符号。
有很多类似的问题,但似乎没有一个能真正正确地回答这个问题,并且这些脚本会删除所有字符,包括句子标点符号和外国阿拉伯字体或西班牙语。
例如,如果字符串包含 www.mygreatwebsite.com
更干净的脚本将返回看起来很奇怪的 wwwmygreatwebsitecom。
如果有人对‘嘿,这是一个很棒的网站!' 它还删除了感叹号。
我查找的所有类似问题都删除了所有字符....
我想用一个简单的正则表达式命令留下标点符号和任何外语字符,清除人们粘贴到表单中的所有内容,但留下标点符号。
自然回车会被空格代替。
有什么建议么?
java - 在 JAVA 中使用 Xpath 解析 HTML 文件
我有一个可以读取 URL 源并保存到文件(source.html)的 Java 代码,现在从保存的页面中,我想使用 XPath 提取一些值。假设我想阅读价格 -//div [@itemprop='price'] //text ()
如何进一步执行此操作,我能否直接在保存的 HTML 页面中执行此操作,或者我应该先将其转换为 XML 文件,然后使用 XPath。我听说过 HTML 清理器/解析器,我应该在这里使用它吗?请不要指向其他网站寻求答案。如果是这样,请把我带到一个我可以进行直接和简单课程的地方。修改以下代码将非常有帮助。
java - 使用 HTMLcleaner 清理 HTML 输入
我正在使用该HTMLCleaner
库编写一个 java 项目并将输出保存为 XML 文件,这是我编写的代码:
问题是运行项目后,cleaned.xml
文件为空。
python - 从 HTML 页面中删除样板内容
我想使用在这里https://github.com/miso-belica/jusText找到的 jusText 实现从 html 页面中获取干净的内容。基本上它是这样工作的:
我已经下载了我想使用这个工具解析的页面(其中一些不再在线提供),我从中提取了 html 内容。由于 jusText 似乎只处理请求的输出(这是一个响应类型对象),我想知道是否有任何自定义方法可以将响应对象的内容设置为包含我想要解析的 html 文本。