问题标签 [html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - Titanium Mobile 的 HTML 解析器
我正在为 Appcelerator Titanium Mobile 寻找易于实现的模块(或函数),它可以解析 html 代码(剥离不需要的标签并清理代码)并只吐出内容。
我知道在移动开发中可以选择使用 webview,但它会增加额外的开销,消耗设备资源并减慢您的应用程序。所以这不是一个选择。
我还在官方 appcelerator 论坛上找到了这篇文章:http: //developer.appcelerator.com/question/60731/what-is-the-best-way-to-parse-html 但它已经 2 岁了,我从来没有设法让它工作。
理想情况下,我正在寻找的解决方案将遵循 Titanium Mobile(和 nodejs)中使用的 commonjs 实践。
javascript - javascript RegExp - 获取所有 html 标签的总字符数
我正在尝试获取所有匹配的 HTML 字符的计数(长度),包括开头(<tag>
)和结尾(</tag>
),包括任何attributes
考虑以下 HTML:
HTML 字符长度计数将是40
(因为它计数<div><a href="#"></a><span></span></div>
)
但是在javascript中使用它时会出现错误
请参阅jsfiddle
java - 像htmlparser这样的java包放在哪里?
我开始使用HTMLParser之类的java包,我已经下载了它,发现里面有很多文件和目录。
我徘徊,将它们放在我的linux系统中的什么位置?有约定或标准吗?
java - 在 HTMLparser HasAttributeFilter 参数中使用通配符(或正则表达式)
我使用 org.htmlparser。如何通过类掩码接收节点列表?例如:
我想接收所有具有“正常”类的标签。很遗憾
新的 HasAttributeFilter("class", "normal")
不工作。HTMLparser 是否允许类似的东西new HasAttributeFilter("class", "\*normal*")
?
html - 使用 html 子字符串加速 CsQuery 选择器
我想解析一些复杂/繁重的 HTML 页面。我最近阅读了 CsQuery 并检查了CsQuery Vs Html Agility Pack 和 Fizzler的性能比较。根据这些测试,由于创建了索引,CsQuery 在创建 DOM 时变得更慢。
假设我想选择一个沉重的 html 页面的某个元素(没有 id),并且我知道它的祖先的 ID,我将使用它作为上下文元素。如果我将这个沉重的 html 加载到 DOM 中,它会很慢,因此我的选择会很慢。但是,如果我能以某种方式快速预处理 html 并获取包含上下文元素(我知道的 ID)的子字符串并将其加载到 DOM 中,它会更快。在那种情况下,我会摆脱许多不需要的 HTML,不会为其创建索引器。因此,我的选择会更快。
我使用 CsQuery 是因为我想要类似 JQuery 的东西。
我的问题是:
给定一个 HTML 文档字符串:是否有一种快速方法(例如:线性)来获取给定其 id 的 HTML 元素的 HTML 子字符串?
java - 在Java中替换IMG标签中的src属性
我有一个 HTML 文档,我需要在其中更新 IMG 标记的 text 和 src 属性。我在 Java 中工作。我想替换 HTML 中的以下字符串:DataName、DataText 和 DataIcon。
虽然我已成功替换字符串 DataName 和 DataText,但我没有成功将 DataIcon 替换为存储在数据库中作为字符串的 imageURL。检查调试表明它只是无法搜索 DataIcon 字符串。我正在使用 HTMLparser,并且我编写了以下类来应用该问题:
该类已以这种方式应用于我的应用程序代码
有谁能够帮助我?整个问题是它无法在 IMG 标签中搜索 DataIcon 字符串。谢谢你的帮助。
java - 从 Html 代码中删除 css 和 script 标签
我有类似的字符串
强文本 我想删除所有类和样式标签(我的意思是 css 和脚本标签)。我想要我的字符串
我必须通过使用 java 来做到这一点。谁能帮我这个....
php - 在 php 中解析 HTML 表格
我有一个数据库表,它在一列中包含以下格式的数据。
我想创建另一个数据库,它具有单独的、Calories
和Fats
列。为了分离这些数据,我需要从旧数据库中获取数据并像这样解析它。Carbohydrates
Protein
这将输出以下内容:
我无法分离输出字符串以在新数据库中具有正确的列值。
例如,我想178
在Calories
列、列等0 g
中具有值。Fats
python - 使用 beautifulsoup 解析 html 页面时丢失的信息
我正在编写一个网络蜘蛛来从网站获取一些信息。当我解析这个页面http://www.tripadvisor.com/Hotels-g294265-oa120-Singapore-Hotels.html#ACCOM_OVERVIEW时 ,我发现有些信息丢失了,我使用soup.prettify()打印了html文档,并且html 文档与我使用 urllib2.openurl() 获得的文档不同,有些东西丢失了。代码如下:
我尝试使用 HtmlParser 做同样的事情,它打印出以下错误:
php - 使用 html dom 解析器删除 href 链接和标签
首先,我获取网页的 html,然后删除通常出现在页面左侧或右侧(不在页面正文中)的 href 链接。Href 链接被删除,但它们的标签没有被删除。
例子:
链接正在被删除,但不是它的标签,即“伦敦”。如何删除 html 源代码中的完整行?我正在使用以下代码: