问题标签 [sgmlreader]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4856 浏览

c# - 为什么 XmlDocument.GetElementById 总是返回 null?

我有一些看起来像这样的 XML(有效的 XHTML):

而且我试图让#myHeader节点使用docment.GetElementById("myHeader"),但它总是返回null。为什么?

它不会将id属性识别为没有 DTD 或其他东西id 属性?如果是这种情况,我怎样才能让它使用 HTML DTD?

0 投票
2 回答
1418 浏览

c# - C# - 是否可以(以及如何)使用 SgmlReader 执行 XSL 转换

我需要使用XSLT转换HTML网页的内容 。因此我使用了SgmlReader并编写了如下所示的片段(我认为,最后,它是一个XmlReader ......)

尽管如此,我还是收到了错误消息

我找到了一种通过将HTML转换为XML来解决此问题的方法然后应用

  1. 中间的XHTML输出到缓冲区,因此需要额外的内存
  2. 转换过程需要额外的CPU处理,并且相同的层次结构被遍历两次(理论上是不必要的)。

所以(因为我知道StackOverflow社区总是提供很好的答案,而其他C#论坛让我完全失望;o)我将寻找反馈和建议,以便直接使用HTML执行XSL转换(即使SgmlReader需要被另一个替换类似的库)。

0 投票
3 回答
10098 浏览

c# - 修改文本 XmlNode 的 InnerXml

我用 SGML 和 XmlDocument 遍历一个 html 文档。当我找到其类型为 Text 的 XmlNode 时,我需要更改其具有 xml 元素的值。我无法更改 InnerXml,因为它是只读的。我试图更改 InnerText,但这次标签描述符字符<>编码为&lt;and &gt;。例如:

我正在尝试更改为:

修改文本 XmlNode 值的最简单方法是什么?

0 投票
1 回答
3423 浏览

python - 美丽汤中的 UnicodeEncodeError (python 2.7.1)

我在这里在 python 2.7.1 上使用 Beautiful Soup 3.2。

我最近一直在尝试做一些简单的工作,但这似乎相当棘手:

我执行以下操作:

但是,我收到错误:

如果我再次运行相同的循环,有时,我也会得到:

如何避免此错误?显然 sgmllib.py 有问题。

我尝试了 SOF 的一些解决方案:

*] 尝试soup = BeautifulSoup(page, fromEncoding=<encoding of the page>) 结果:剂量工作,同样的错误。

*] 尝试将我的 sgmllib.py 从 2.7.2 版本升级到我的 2.7.1 版本结果:剂量工作,同样的错误。

*] 尝试html = BeautifulSoup(page.encode('utf-8')) 结果:剂量工作,同样的错误。

我将不胜感激有关如何解决此编码错误的任何建议。

0 投票
1 回答
521 浏览

c# - 从 Xml 文档中删除 jquery 和 CSS

我正在使用 sgmlreader 将 HTML 转换为 XML。输出进入一个 XmlDocument 对象,然后我可以使用 InnerText 方法从网站中提取纯文本。我试图通过删除任何 javascript 使文本看起来尽可能干净。遍历 xml 并删除任何<script type="text/javascript">内容很容易,但是当任何 jquery 或样式未封装在任何标签中时,我遇到了障碍。有人可以帮帮我吗?

示例代码:

第一步:一旦我使用 webclient 类下载 HTML,我保存它,然后使用文本阅读器类打开文件。

第二步:创建 sgmlreader 类并将输入流设置为文本阅读器:

第三步:一旦我有了一个 xmldocument,我就使用 doc.InnerText 来获取我的纯文本。

第四步:我可以像这样轻松删除 JavaScript 标签:

有些东西还是漏了。这是我正在编写的一个特定网站的输出示例:

需要删除该 jquery 和样式。

0 投票
1 回答
620 浏览

windows-8 - SgmlReader 和 System.Xml Windows 8

我正在尝试使用 SgmlReader 将 HTML 流转换为 XML 以进行进一步解析。此转换是我正在为 Windows 8 应用商店开发的 APP 的一部分。以下是将 Html 转换为 XML 的方法:-

sgmlReader.WhitespaceHandling = WhitespaceHandling.All; 是 Xml.WhitespaceHandling 不存在的问题。还有其他方法可以做到这一点吗?

0 投票
0 回答
169 浏览

sgmlreader - SgmlReader 在 Nuget 包中嵌入 DTD

几天前我报告说,DTD 模式没有嵌入到 SgmlReader 的 nuget 包中。 那里的帖子

但是我得到了回应,然后它被嵌入了,为了使用它,我必须将 DocType 设置为“HTML”它仍然对我不起作用,有人对 Nuget 提供的 1.8.8 版有同样的问题吗?(1.8.7 对我来说很好)

我使用 DotPeek 反编译了这两个版本,但在 1.8.8 中没有看到 DTD(附截图)

在此处输入图像描述

0 投票
1 回答
243 浏览

sgmlreader - 如何停止 SGMLReader 添加缺少的标签,如输出

我正在使用 SGML Reader 来格式化我的 html 片段,如下所示https://github.com/MindTouch/SGMLReader。问题是它在代码中添加了缺失的标签。有什么办法可以阻止它。

0 投票
1 回答
87 浏览

xml - 在 Window Phone 应用程序上使用 SgmlReader

有没有办法为 Window Phone 应用程序包含 SgmlReader?我无法通过 Install-package SgmlReader incompatiable asssembly 错误安装它

如果这是不可能的,有没有其他方法可以在 Window Phone Application 8.0 中执行 HTML 到 XML?

0 投票
1 回答
1021 浏览

perl - Perl:无法在 Mac OSX 中构建 SGML::Parse::OpenSP 和代理错误

我在 OSX 10.9.1 上运行 Perl 5.16.2,我在从 CPAN 安装模块时遇到了困难。我安装成功

但是,当我尝试类似

我得到错误

我尝试使用重置 CPAN shell 中的 HTTP 和 FTP 代理变量

但是,错误仍然存​​在。

另外,当我尝试安装以下软件包时

我得到错误

相关的错误是

更新:

我使用 fink 安装了 OpenSP,并且 fink 将它安装在我的根目录中

该目录sw是由 fink 在我的根目录中创建的。我正在使用,但我无法弄清楚为什么在尝试构建时sudo cpan SGML::Parser::OpenSP找不到此文件。ParserEventGeneratorKit.h

任何建议将不胜感激。

谢谢