问题标签 [jericho-html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用jericho在java中验证html标签
使用jericho api
,我可以验证给定的 html 标签<input type="test" .....>
吗?我无法在 jericho 中找到可以这样做的 api。有没有一种方法可以让我jericho
只使用它?我不想整理或清理 html 标签。我只是想检查它的有效性。
java - 想要访问属性值
我需要有关 html 解析器的帮助我想获取标记“a”的第一个属性“href”值请解决我的问题。我想从代码http://myneta.info/gujarat2012/candidate.php 获取此链接? Candidate_id=1591,我正在附上快照,请查看并提供一些解决方案,我已经尝试过此代码,但不适用于我 -
jericho-html-parser - 如何使用 jericho html 解析器从 html 或 jsp 页面获取评论
如何从 html 和 jsp 页面获取类似//Comments
&的评论。/*Comments*/
我有评论<!--Comments-->
,,,<%--Comments--%>
以<%Comments%>
下列方式使用 jericho html 解析器。
但我无法找到//
& /*Comments*/
。
java - 使用 Java 从 HTML 中提取文本,包括源代码行号和代码
如何使用 Java 从 HTML 中提取文本的问题已被查看和重复了无数次: 从 HTML Java 中提取文本
感谢在 Stackoverflow 上找到的答案,我目前的情况是我正在使用JSoup
和这段或代码:
现在我还想显示手头的 textNode 来自的行号和原始 html 源代码。我怀疑 JSoup 可以做到这一点(例如参见)
并尝试解决方法:
无法可靠地找到原始 html。所以我想我可能不得不切换到另一个库或方法。Jericho-html:是否可以参考源文件中的位置提取文本?正如上面的链接也指出的那样,有一个答案说“杰里科可以做到”。但是缺少指向实际工作代码的指针。
在杰里科,我做到了:
这已经很好了,因为它会给你这样的输出:
但现在的后续问题是 TextExtractor 递归输出所有子节点的整个文本,以便文本多次显示。
什么是过滤以及上述 JSoup 解决方案(请注意文本元素的正确顺序)但显示源代码行的有效解决方案,如上述 Jericho 代码片段一样?
jericho-html-parser - 如何使用 Jericho HTML Parser 添加隐藏的输入标签?
对于 HTML 页面中的每个表单,我想在它通过 JEE 过滤器时添加一个额外的隐藏输入标记。例如,对于给定的 HTML 页面:
最终结果应该与此类似:
由于 HTML 可能格式不正确,我认为 Jericho 将是首选的 HTML 解析器。在浏览了几次网页之后,我找到了更改现有标签值的方法,但是如何添加额外的标签让我无法理解。
提前感谢您的帮助。
java - 如何从网站检索所有用户评论?
我想要来自这个网站的所有用户评论:http: //www.consumercomplaints.in/?search=chevrolet
问题是评论只是部分显示,要查看完整的评论,我必须单击它上面的标题,并且必须对所有评论重复此过程。
另一个问题是评论页面很多。
因此,我想将所有完整评论存储在上述指定站点的 excel 表中。这可能吗 ?我正在考虑将 crawler4j 和 jericho 与 Eclipse 一起使用。
我的 visitPage 方法代码:@Override
public void visit(Page page) {
String url = page.getWebURL().getURL(); System.out.println("网址:" + url);
提前致谢。任何帮助,将不胜感激。
java - Java/Android HTML 自定义标签解析器
我试图找出一种方法来解析带有自定义标签的 html 文件,格式如下:
这是我正在使用的文件的示例:
我想要(在理想的世界中)返回的是元素列表):
上面列表中的元素包含:
文本:
自定义标签:
关联:
文本:
我试过的:
- Jsoup
Jsoup 很棒,它非常适合 HTML。问题是我无法定义带有打开“[”和关闭“]”的自定义标签。如我错了请纠正我? - Jericho
和 Jsoup 一样,Jericho 工作得很好……除了定义自定义标签。您需要使用“<”。 - Java Regex
这是我真的不想选择的选项。它不可靠,并且存在很多脆弱的字符串操作,尤其是当您与很多正则表达式匹配时。
最后但同样重要的是,我正在寻找一种以性能为导向的解决方案,因为这是在 Android 客户端上完成的。
欢迎所有建议!
java - 使用java在html页面内容中查找元素的Xpath
我是 xpath 表达式的初学者,
我有以下网址:
它包含 html 页面内容,使用以下 xpath 会在 javascript 中产生相同的 ul 元素:
//*[@id="moreStock_5257711"]
//*[@id="priceWrap"]/div[1]/div/a/following-sibling::ul
//html/body/div/div/div/div/div/div/div/div/div/div/a/following-sibling::ul
使用这个 xpaths 我应该如何在 java 中获得相同的 ul 元素
我曾尝试使用“html 清洁器”,但它在 xpath 中失败了 -
它适用于“//* [@id ='moreStock_5257711']”这个xpath。所以下面我在html清洁器中尝试过的代码
我要求所有 xpath 都应该使用 java 中的一个包
任何人都可以建议我使用 java 获取 ul 元素的所有 xpaths 表达式。
感谢您的提前问候。
java - 将 JerichoHTML 解析器元素转换为字符串
我正在使用返回列表的 JerichoHTML 解析器(getAllElements 方法)解析 HTML 数据。但是,我需要将数据存储在 String[] 中。但是我是怎么做的,(即使通过像 (String) ((Object) theList) 这样的嵌套转换)它总是失败....知道如何解决这个问题吗?在jericho docs上找不到任何帮助...
错误如下: