问题标签 [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1080 浏览

android - Html.fromHtml 的替代品?

我正在尝试制作一个包含 TextView 元素的列表视图,每个元素都包含一个 SpannableString。这些 TextView 的内容是从 Html 标记中的 ArrayList 中获取的,并使用 Html.fromHtml 转换为 SpannableStrings。现在,Html.fromHtml 有很多性能问题。所以我尝试制作自己的 Html.fromHtml 版本

}

这是一个简单的基于 sax 的解析器。我这样做是受到 CommonsWare 先前回答的启发,有没有比 Html.fromHtml() 更快的方法将 html 字符解码为字符串?. 它具有最少的功能(粗体、斜体、下划线和中断)但即便如此,性能也没有提高。我有一些想法,比如将 textview 合成位图并将其缓存在内存中,并且在 listview 回收时不必再次重新渲染它。任何人都可以提出任何想法吗?..(请避免使用基于 NDK 的解决方案,因为我从未成功编译过它们,而且它增加了不必要的复杂性)

0 投票
0 回答
648 浏览

python - 检索具有特定属性的标签之间的信息(Python HTMLParser)

我正在尝试从 HTML 页面信息中进行选择。我使用 python 和 HTMLParse 库。

我想获得价值,它包含在下一个 html 元素中:

即信息保存在标签“span”之间,但具有特定的属性类='相关'。

我面临的主要问题-如何检索具有特定属性的“跨度”部分之间的信息?据我了解,方法 handle_endtag() 只有标签(没有任何属性)。

所以,如果我有嵌套标签,我不能使用这种方法吗?

PS我看到了问题如何使用python HTMLParser库从特定的div标签中提取数据?,但这个问题不包括具有特定属性的嵌套标签。

0 投票
1 回答
852 浏览

java - 如何从 Jsoup 获取未格式化的 html

输出:

由于 JSoup 进行了格式化,textNodes 的值更改为包含换行符。

在测试用例中更改<inline>为似乎工作正常,但不幸的是,我们有包含由 redactor 生成的标签的遗留数据/html。<span><inline>

0 投票
1 回答
152 浏览

perl - 搜索和替换特定标签之间的内容

classname这在两个地方都替换了。如何将替换仅限于内容<body>?我希望看到它使用HTML::Parseror完成HTML::TreeBuilder

0 投票
2 回答
474 浏览

textarea - 使用 Simpe HTML Dom 获取 Textarea 值

我使用 simple_html_dom.php

如果网站使用了错误标签,如何获取 textarea 值。

</textarea>textarea 标签在输入标签之前已经关闭。

Textarea HTML 如下所示:

当我使用这个功能时,我什么也得不到

如何使用 simple_html_dom.php 或其他替代方法获得“这是价值”?

谢谢

0 投票
1 回答
4045 浏览

php - 移动此文档的对象可在此处找到 php

我正在将我的网页重定向到另一个网址。它在本地主机上运行良好,但是当我将它托管到我的网络服务器时,它会给我一条消息,上面写着“对象已移动,此文档可能在此处找到”。我不知道这里的问题是我的代码。

请帮助我应该怎么做才能避免这个错误。谢谢

0 投票
1 回答
7064 浏览

python - Python 3.4 的 HTMLParser

我有一些使用 HTMLParser 用 Python (2.7) 编写的代码。我目前正在使用 Python 3.4。

我找不到 HTMLParser 下载模块。

如果存在,谁能分享链接?如果没有,我该怎么办?

0 投票
1 回答
65 浏览

python - 子类 _init_ 方法被忽略 - 执行直接跳转到超类 _init_

我正在使用 HTMLParser 来解析一些基本的、格式良好的 HTML,并且由于各种原因不想使用 BeautifulSoup。我对 HTMLParser 进行了子类化,实际的解析器工作正常。但是,没有调用子类的 init_ 方法。相反,当我创建一个新的子类对象时,会直接调用 HTMLParser 的 init 方法,而根本不会调用子类 init。当我从 HTMLParser.HTMLParser 以及 urllib.HTMLParser 继承时,就会发生这种情况。这是代码:

0 投票
3 回答
2861 浏览

python - python urllib取消引用损坏

如何让 urllib 仅取消引用有效的 % 编码字符串?

结果是

urllib unquote '%20' to ' ',但它也错误地 unquote '%ed' to '�'

HTMLParser 可以转义 '&' 到 '&',但它不能将 '%20' 转换为 ' '

- - - - - - - 编辑 - - -

我很抱歉没有很好地解释我的问题,事实上我有很多字符串要处理,有些是 URL,有些不是。原始字符串是Time-@#*%ed,我将字符串设置Time-@#*%ed%20&amp;为包含这两种情况。事实证明,很难在一行代码中处理这两种情况。阅读答案后,我编写了自己的函数

0 投票
0 回答
279 浏览

java - Neko 解析器正在剥离
  • 解析 HTML 字符串时的标记

我有一个要转换为 DocumentFragment 的字符串。问题是孩子<ul><li>... </li></ul>们被完全剥夺了。我不知道为什么会这样。

我需要添加或更新任何配置吗?

输入

输出如下

我不知道为什么会这样。

Java程序

创建 DocumentFragment 对象。

序列化函数