问题标签 [malformed]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
511 浏览

javascript - 检测 IFRAME 的文档是否格式错误

我正在将页面加载到 IFRAME 中,我想知道下载是否不完整 .. 并且 HTML 格式不正确,并且缺少结束标记,例如</body>and </html>

有没有办法在 JavaScript 中检测到这一点?

0 投票
2 回答
1427 浏览

php - 使用 PHP 读取格式错误的 XML(未编码的 XML 实体)

我在解析 PHP 中格式错误的 XML 时遇到了一些麻烦。特别是,我正在查询第三方 Web 服务,它以 XML 格式返回数据,而无需在实际数据中编码 XML 实体。例如,其中一个元素包含一个 ASCII 心脏“<3”,没有引号,XML 解析器将其视为开始标记。它应该是“<3”。

现在,我只是将 XML 字符串传递到 SimpleXMLElement 中,可以预见的是,它在这些实例上会失败。我做了一些环顾四周,似乎 PHP Tidy 包可能能够帮助我,但是你可以做的配置量是压倒性的 :(

因此,我只是想知道是否有其他人遇到过这样的问题,如果有,他们是如何解决的。

谢谢!

0 投票
1 回答
185 浏览

xml - 修复 Lua 中的错误 XML

我有一个使用来自外部设备的数据的 Lua 程序。设备返回格式错误的 XML,如下所示:

特别是一些字段是用户可编辑的,并且可以想象包含应该转义但不是的项目。希望我可以修复生成这些消息的代码,但在那之前我需要一个解决方法来尝试“做正确的事情™”。消息似乎确实以固定格式出现,属性始终以相同的顺序排列并且始终存在(据我所知),因此我可以使用非常严格的模式匹配,例如:

但这看起来真的很恶心,如果他们决定改变格式当然会中断(不解决问题。

对替代解决方案有什么建议吗?我主要关心的是找到需要转换为“的”。其他 XML 实体我不太担心。

0 投票
3 回答
2856 浏览

python - 为什么 BeautifulSoup 会抛出这个 HTMLParseError?

我认为 BeautifulSoup 将能够处理格式错误的文档,但是当我将页面源发送给它时,会打印以下回溯:

它不应该能够处理这种事情吗?如果它可以处理它们,我该怎么做?如果没有,是否有可以处理格式错误的文档的模块?

编辑:这是一个更新。我使用 Firefox 将页面保存在本地,并尝试从文件内容创建一个汤对象。这就是 BeautifulSoup 失败的地方。如果我尝试直接从网站创建一个汤对象,它可以工作。这是给汤带来麻烦的文件。

0 投票
3 回答
976 浏览

html - 你如何在 Perl 中处理格式错误的 HTML?

我对可以获取格式错误的 HTML 页面并在对其执行一些 XPath 查询之前将其转换为格式良好的 HTML 的解析器感兴趣。你知道吗?

0 投票
5 回答
2087 浏览

html - 使用 C# 清理 HTML

如何使用 C# 修复格式错误的 HTML?一个很好的答案是 HTML Agility Pack 示例!


我正在抓取一个网站(用于合法使用)。该站点的 HTML 还可以,但存在一些烦人的问题。

我可以采用的一种方法是通过正则表达式。我使用 Expression Web 来分析问题以及纠正问题所需的正则表达式。因此,一种方法是使用RegexBuddy等工具为这些正则表达式生成 C# 代码。

但是,在 C# 中处理格式错误的 HTML 的推荐工具是HTML Agility Pack (HAP)。而且,我只分析了几页,怕以后的页面会包含我还没有解决的模式,我讨厌进入“在接下来的几页中查找错误并更正它们”维护商业。因此,如果 HAP 已经有一个可靠的、始终有效的解决方案,那就太好了。问题是,除了在 SO 中提到的一些内容外,除了逐个对象的 API 帮助文件外,我找不到任何该工具的使用方法文档。

所以 - 在我花费 $ 和学习时间在 RegexBuddy(没有免费评估版)上,或者在 HAP 的 API 文档上大吃一惊之前 - 有没有一种简单的方法可以做到这一点?HAP 样本会有所帮助... :-)

0 投票
3 回答
9456 浏览

ruby - 如何从 Ruby 中的 URL 中删除多个尾部斜杠

我在这里想要实现的是假设我们有两个示例 URL:

如何提取条带化的 URL?

URI.parse在 Ruby 中清理某些类型的格式错误的 URL,但在这种情况下无效。

如果我们使用正则表达式,则从中/^(.*)\/$/删除一个斜杠,并且对./url1url2

有人知道如何处理这种类型的 URL 解析吗?

这里的重点是我不希望我的系统拥有http://www.example.com/并被http://www.example.com视为两个不同的 URL。http://emy.dod.com/kaskaa/dkaiad/amaa////和也是如此http://emy.dod.com/kaskaa/dkaiad/amaa/

0 投票
2 回答
149 浏览

c++ - 返回奇数的简单模板?

阅读前编辑:对不起..我没有添加换行符,所以看起来很混乱,我无法删除问题,因为我还没有注册,抱歉浪费你们的时间。

我只是第一次使用模板(用于查找两个数字的 MIN)而不是宏,我喜欢它!但是当我尝试修改并制作自己的模板时,它完全失败了。这是我的代码:

现在奇怪的结果在评论中.. Min 工作正常,但是当我将它从比较更改为“a + b”时,它会阻止 min 工作,并给我奇怪的浮点值?!

我是否以错误的方式使用它?,它应该是别的东西吗?这意味着什么?我了解基础知识,所以简单的解释就可以了。谢谢!

0 投票
1 回答
4822 浏览

udp - UDP格式错误的数据包

我将 C# 程序用于客户端 UDP 应用程序。应用程序侦听连接,然后进行通信。

我使用 Wireshark 来调试应用程序。问题是,一段时间后我的应用程序开始发送格式错误的 STUN 数据包,我认为因此它们被互联网上的路由器拒绝。

问题:是否可以防止发送格式错误的 UDP/STUN 数据包?

0 投票
2 回答
4387 浏览

perl - 如何避免格式错误的 URI 序列错误?