问题标签 [html-parser]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

204 问题

0 投票

0 回答

1674 浏览

javascript - Titanium Mobile 的 HTML 解析器

我正在为 Appcelerator Titanium Mobile 寻找易于实现的模块（或函数），它可以解析 html 代码（剥离不需要的标签并清理代码）并只吐出内容。

我知道在移动开发中可以选择使用 webview，但它会增加额外的开销，消耗设备资源并减慢您的应用程序。所以这不是一个选择。

我还在官方 appcelerator 论坛上找到了这篇文章：http: //developer.appcelerator.com/question/60731/what-is-the-best-way-to-parse-html 但它已经 2 岁了，我从来没有设法让它工作。

理想情况下，我正在寻找的解决方案将遵循 Titanium Mobile（和 nodejs）中使用的 commonjs 实践。

2013-01-15T10:14:26.567

0 投票

2 回答

925 浏览

javascript - javascript RegExp - 获取所有 html 标签的总字符数

我正在尝试获取所有匹配的 HTML 字符的计数（长度），包括开头（<tag>）和结尾（</tag>），包括任何attributes

考虑以下 HTML：

HTML 字符长度计数将是40 （因为它计数<div><a href="#"></a><span></span></div>）

这是有效的正则表达式（在 gskinner.com 上）

但是在javascript中使用它时会出现错误
请参阅jsfiddle

javascript regex html-parsing html-parser

2013-01-18T16:09:55.270

0 投票

2 回答

108 浏览

java - 像htmlparser这样的java包放在哪里？

我开始使用HTMLParser之类的java包，我已经下载了它，发现里面有很多文件和目录。

我徘徊，将它们放在我的linux系统中的什么位置？有约定或标准吗？

java html-parser

2013-01-29T06:46:14.423

0 投票

1 回答

376 浏览

java - 在 HTMLparser HasAttributeFilter 参数中使用通配符（或正则表达式）

我使用 org.htmlparser。如何通过类掩码接收节点列表？例如：

我想接收所有具有“正常”类的标签。很遗憾

新的 HasAttributeFilter("class", "normal")

不工作。HTMLparser 是否允许类似的东西new HasAttributeFilter("class", "\*normal*")？

java html-parsing html-parser

2013-03-02T14:49:38.510

0 投票

1 回答

1023 浏览

html - 使用 html 子字符串加速 CsQuery 选择器

我想解析一些复杂/繁重的 HTML 页面。我最近阅读了 CsQuery 并检查了CsQuery Vs Html Agility Pack 和 Fizzler的性能比较。根据这些测试，由于创建了索引，CsQuery 在创建 DOM 时变得更慢。

假设我想选择一个沉重的 html 页面的某个元素（没有 id），并且我知道它的祖先的 ID，我将使用它作为上下文元素。如果我将这个沉重的 html 加载到 DOM 中，它会很慢，因此我的选择会很慢。但是，如果我能以某种方式快速预处理 html 并获取包含上下文元素（我知道的 ID）的子字符串并将其加载到 DOM 中，它会更快。在那种情况下，我会摆脱许多不需要的 HTML，不会为其创建索引器。因此，我的选择会更快。

我使用 CsQuery 是因为我想要类似 JQuery 的东西。

我的问题是：

给定一个 HTML 文档字符串：是否有一种快速方法（例如：线性）来获取给定其 id 的 HTML 元素的 HTML 子字符串？

html html-parsing web-scraping html-parser csquery

2013-03-16T02:54:08.693

0 投票

1 回答

2420 浏览

java - 在Java中替换IMG标签中的src属性

我有一个 HTML 文档，我需要在其中更新 IMG 标记的 text 和 src 属性。我在 Java 中工作。我想替换 HTML 中的以下字符串：DataName、DataText 和 DataIcon。

虽然我已成功替换字符串 DataName 和 DataText，但我没有成功将 DataIcon 替换为存储在数据库中作为字符串的 imageURL。检查调试表明它只是无法搜索 DataIcon 字符串。我正在使用 HTMLparser，并且我编写了以下类来应用该问题：

该类已以这种方式应用于我的应用程序代码

有谁能够帮助我？整个问题是它无法在 IMG 标签中搜索 DataIcon 字符串。谢谢你的帮助。

java html html-parser

2013-03-28T19:08:42.337

0 投票

2 回答

1917 浏览

java - 从 Html 代码中删除 css 和 script 标签

我有类似的字符串

强文本 我想删除所有类和样式标签（我的意思是 css 和脚本标签）。我想要我的字符串

我必须通过使用 java 来做到这一点。谁能帮我这个....

java html-parser

2013-04-29T05:56:39.217

0 投票

2 回答

3228 浏览

php - 在 php 中解析 HTML 表格

我有一个数据库表，它在一列中包含以下格式的数据。

我想创建另一个数据库，它具有单独的、Calories和Fats列。为了分离这些数据，我需要从旧数据库中获取数据并像这样解析它。CarbohydratesProtein

这将输出以下内容：

我无法分离输出字符串以在新数据库中具有正确的列值。

例如，我想178在Calories列、列等0 g中具有值。Fats

php dom html-parsing html-parser

2013-04-30T08:27:29.380

0 投票

1 回答

148 浏览

python - 使用 beautifulsoup 解析 html 页面时丢失的信息

我正在编写一个网络蜘蛛来从网站获取一些信息。当我解析这个页面http://www.tripadvisor.com/Hotels-g294265-oa120-Singapore-Hotels.html#ACCOM_OVERVIEW时，我发现有些信息丢失了，我使用soup.prettify()打印了html文档，并且html 文档与我使用 urllib2.openurl() 获得的文档不同，有些东西丢失了。代码如下：

我尝试使用 HtmlParser 做同样的事情，它打印出以下错误：

python beautifulsoup web-crawler html-parser

2013-05-07T03:41:35.160

0 投票

2 回答

566 浏览

php - 使用 html dom 解析器删除 href 链接和标签

首先，我获取网页的 html，然后删除通常出现在页面左侧或右侧（不在页面正文中）的 href 链接。Href 链接被删除，但它们的标签没有被删除。

例子：

链接正在被删除，但不是它的标签，即“伦敦”。如何删除 html 源代码中的完整行？我正在使用以下代码：

php tags simple-html-dom html-parser

2013-05-18T22:02:17.390

1 2 3 4 5 6 7 8 9 10

问题标签 [html-parser]

Reference