问题标签 [html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - Html.fromHtml 的替代品?
我正在尝试制作一个包含 TextView 元素的列表视图,每个元素都包含一个 SpannableString。这些 TextView 的内容是从 Html 标记中的 ArrayList 中获取的,并使用 Html.fromHtml 转换为 SpannableStrings。现在,Html.fromHtml 有很多性能问题。所以我尝试制作自己的 Html.fromHtml 版本
}
这是一个简单的基于 sax 的解析器。我这样做是受到 CommonsWare 先前回答的启发,有没有比 Html.fromHtml() 更快的方法将 html 字符解码为字符串?. 它具有最少的功能(粗体、斜体、下划线和中断)但即便如此,性能也没有提高。我有一些想法,比如将 textview 合成位图并将其缓存在内存中,并且在 listview 回收时不必再次重新渲染它。任何人都可以提出任何想法吗?..(请避免使用基于 NDK 的解决方案,因为我从未成功编译过它们,而且它增加了不必要的复杂性)
python - 检索具有特定属性的标签之间的信息(Python HTMLParser)
我正在尝试从 HTML 页面信息中进行选择。我使用 python 和 HTMLParse 库。
我想获得价值,它包含在下一个 html 元素中:
即信息保存在标签“span”之间,但具有特定的属性类='相关'。
我面临的主要问题-如何检索具有特定属性的“跨度”部分之间的信息?据我了解,方法 handle_endtag() 只有标签(没有任何属性)。
所以,如果我有嵌套标签,我不能使用这种方法吗?
PS我看到了问题如何使用python HTMLParser库从特定的div标签中提取数据?,但这个问题不包括具有特定属性的嵌套标签。
java - 如何从 Jsoup 获取未格式化的 html
输出:
由于 JSoup 进行了格式化,textNodes 的值更改为包含换行符。
在测试用例中更改<inline>
为似乎工作正常,但不幸的是,我们有包含由 redactor 生成的标签的遗留数据/html。<span>
<inline>
perl - 搜索和替换特定标签之间的内容
classname
这在两个地方都替换了。如何将替换仅限于内容<body>
?我希望看到它使用HTML::Parser
or完成HTML::TreeBuilder
。
textarea - 使用 Simpe HTML Dom 获取 Textarea 值
我使用 simple_html_dom.php
如果网站使用了错误标签,如何获取 textarea 值。
</textarea>
textarea 标签在输入标签之前已经关闭。
Textarea HTML 如下所示:
当我使用这个功能时,我什么也得不到
如何使用 simple_html_dom.php 或其他替代方法获得“这是价值”?
谢谢
php - 移动此文档的对象可在此处找到 php
我正在将我的网页重定向到另一个网址。它在本地主机上运行良好,但是当我将它托管到我的网络服务器时,它会给我一条消息,上面写着“对象已移动,此文档可能在此处找到”。我不知道这里的问题是我的代码。
请帮助我应该怎么做才能避免这个错误。谢谢
python - Python 3.4 的 HTMLParser
我有一些使用 HTMLParser 用 Python (2.7) 编写的代码。我目前正在使用 Python 3.4。
我找不到 HTMLParser 下载模块。
如果存在,谁能分享链接?如果没有,我该怎么办?
python - 子类 _init_ 方法被忽略 - 执行直接跳转到超类 _init_
我正在使用 HTMLParser 来解析一些基本的、格式良好的 HTML,并且由于各种原因不想使用 BeautifulSoup。我对 HTMLParser 进行了子类化,实际的解析器工作正常。但是,没有调用子类的 init_ 方法。相反,当我创建一个新的子类对象时,会直接调用 HTMLParser 的 init 方法,而根本不会调用子类 init。当我从 HTMLParser.HTMLParser 以及 urllib.HTMLParser 继承时,就会发生这种情况。这是代码:
python - python urllib取消引用损坏
如何让 urllib 仅取消引用有效的 % 编码字符串?
结果是
urllib unquote '%20' to ' ',但它也错误地 unquote '%ed' to '�'
HTMLParser 可以转义 '&' 到 '&',但它不能将 '%20' 转换为 ' '
- - - - - - - 编辑 - - -
我很抱歉没有很好地解释我的问题,事实上我有很多字符串要处理,有些是 URL,有些不是。原始字符串是Time-@#*%ed
,我将字符串设置Time-@#*%ed%20&
为包含这两种情况。事实证明,很难在一行代码中处理这两种情况。阅读答案后,我编写了自己的函数
java - Neko 解析器正在剥离- 解析 HTML 字符串时的标记
我有一个要转换为 DocumentFragment 的字符串。问题是孩子<ul><li>... </li></ul>
们被完全剥夺了。我不知道为什么会这样。
我需要添加或更新任何配置吗?
输入
输出如下
我不知道为什么会这样。
Java程序
创建 DocumentFragment 对象。
序列化函数