问题标签 [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1674 浏览

javascript - Titanium Mobile 的 HTML 解析器

我正在为 Appcelerator Titanium Mobile 寻找易于实现的模块(或函数),它可以解析 html 代码(剥离不需要的标签并清理代码)并只吐出内容。

我知道在移动开发中可以选择使用 webview,但它会增加额外的开销,消耗设备资源并减慢您的应用程序。所以这不是一个选择。

我还在官方 appcelerator 论坛上找到了这篇文章:http: //developer.appcelerator.com/question/60731/what-is-the-best-way-to-parse-html 但它已经 2 岁了,我从来没有设法让它工作。

理想情况下,我正在寻找的解决方案将遵循 Titanium Mobile(和 nodejs)中使用的 commonjs 实践。

0 投票
2 回答
925 浏览

javascript - javascript RegExp - 获取所有 html 标签的总字符数

我正在尝试获取所有匹配的 HTML 字符的计数(长度),包括开头(<tag>)和结尾(</tag>),包括任何attributes

考虑以下 HTML:

HTML 字符长度计数将是40 (因为它计数<div><a href="#"></a><span></span></div>

这是有效的正则表达式(在 gskinner.com 上)

但是在javascript中使用它时会出现错误
请参阅jsfiddle

0 投票
2 回答
108 浏览

java - 像htmlparser这样的java包放在哪里?

我开始使用HTMLParser之类的java包,我已经下载了它,发现里面有很多文件和目录。

我徘徊,将它们放在我的linux系统中的什么位置?有约定或标准吗?

0 投票
1 回答
376 浏览

java - 在 HTMLparser HasAttributeFilter 参数中使用通配符(或正则表达式)

我使用 org.htmlparser。如何通过类掩码接收节点列表?例如:

我想接收所有具有“正常”类的标签。很遗憾

新的 HasAttributeFilter("class", "normal")

不工作。HTMLparser 是否允许类似的东西new HasAttributeFilter("class", "\*normal*")

0 投票
1 回答
1023 浏览

html - 使用 html 子字符串加速 CsQuery 选择器

我想解析一些复杂/繁重的 HTML 页面。我最近阅读了 CsQuery 并检查了CsQuery Vs Html Agility Pack 和 Fizzler的性能比较。根据这些测试,由于创建了索引,CsQuery 在创建 DOM 时变得更慢。

假设我想选择一个沉重的 html 页面的某个元素(没有 id),并且我知道它的祖先的 ID,我将使用它作为上下文元素。如果我将这个沉重的 html 加载到 DOM 中,它会很慢,因此我的选择会很慢。但是,如果我能以某种方式快速预处理 html 并获取包含上下文元素(我知道的 ID)的子字符串并将其加载到 DOM 中,它会更快。在那种情况下,我会摆脱许多不需要的 HTML,不会为其创建索引器。因此,我的选择会更快。

我使用 CsQuery 是因为我想要类似 JQuery 的东西。

我的问题是:

给定一个 HTML 文档字符串:是否有一种快速方法(例如:线性)来获取给定其 id 的 HTML 元素的 HTML 子字符串?

0 投票
1 回答
2420 浏览

java - 在Java中替换IMG标签中的src属性

我有一个 HTML 文档,我需要在其中更新 IMG 标记的 text 和 src 属性。我在 Java 中工作。我想替换 H​​TML 中的以下字符串:DataName、DataText 和 DataIcon。

虽然我已成功替换字符串 DataName 和 DataText,但我没有成功将 DataIcon 替换为存储在数据库中作为字符串的 imageURL。检查调试表明它只是无法搜索 DataIcon 字符串。我正在使用 HTMLparser,并且我编写了以下类来应用该问题:

该类已以这种方式应用于我的应用程序代码

有谁能够帮助我?整个问题是它无法在 IMG 标签中搜索 DataIcon 字符串。谢谢你的帮助。

0 投票
2 回答
1917 浏览

java - 从 Html 代码中删除 css 和 script 标签

我有类似的字符串

强文本 我想删除所有类和样式标签(我的意思是 css 和脚本标签)。我想要我的字符串

我必须通过使用 java 来做到这一点。谁能帮我这个....

0 投票
2 回答
3228 浏览

php - 在 php 中解析 HTML 表格

我有一个数据库表,它在一列中包含以下格式的数据。

我想创建另一个数据库,它具有单独的、CaloriesFats列。为了分离这些数据,我需要从旧数据库中获取数据并像这样解析它。CarbohydratesProtein

这将输出以下内容:

我无法分离输出字符串以在新数据库中具有正确的列值。

例如,我想178Calories列、列等0 g中具有值。Fats

0 投票
1 回答
148 浏览

python - 使用 beautifulsoup 解析 html 页面时丢失的信息

我正在编写一个网络蜘蛛来从网站获取一些信息。当我解析这个页面http://www.tripadvisor.com/Hotels-g294265-oa120-Singapore-Hotels.html#ACCOM_OVERVIEW时 ,我发现有些信息丢失了,我使用soup.prettify()打印了html文档,并且html 文档与我使用 urllib2.openurl() 获得的文档不同,有些东西丢失了。代码如下:

我尝试使用 HtmlParser 做同样的事情,它打印出以下错误:

0 投票
2 回答
566 浏览

php - 使用 html dom 解析器删除 href 链接和标签

首先,我获取网页的 html,然后删除通常出现在页面左侧或右侧(不在页面正文中)的 href 链接。Href 链接被删除,但它们的标签没有被删除。

例子:

链接正在被删除,但不是它的标签,即“伦敦”。如何删除 html 源代码中的完整行?我正在使用以下代码: