问题标签 [sgmlreader]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 为什么 XmlDocument.GetElementById 总是返回 null?
我有一些看起来像这样的 XML(有效的 XHTML):
而且我试图让#myHeader
节点使用docment.GetElementById("myHeader")
,但它总是返回null
。为什么?
我猜它不会将id
属性识别为没有 DTD 或其他东西的id 属性?如果是这种情况,我怎样才能让它使用 HTML DTD?
c# - C# - 是否可以(以及如何)使用 SgmlReader 执行 XSL 转换
我需要使用XSLT转换HTML网页的内容 。因此我使用了SgmlReader并编写了如下所示的片段(我认为,最后,它是一个XmlReader ......)
尽管如此,我还是收到了错误消息
我找到了一种通过将HTML转换为XML来解决此问题的方法然后应用
- 中间的XHTML输出到缓冲区,因此需要额外的内存
- 转换过程需要额外的CPU处理,并且相同的层次结构被遍历两次(理论上是不必要的)。
所以(因为我知道StackOverflow社区总是提供很好的答案,而其他C#论坛让我完全失望;o)我将寻找反馈和建议,以便直接使用HTML执行XSL转换(即使SgmlReader需要被另一个替换类似的库)。
c# - 修改文本 XmlNode 的 InnerXml
我用 SGML 和 XmlDocument 遍历一个 html 文档。当我找到其类型为 Text 的 XmlNode 时,我需要更改其具有 xml 元素的值。我无法更改 InnerXml,因为它是只读的。我试图更改 InnerText,但这次标签描述符字符<
和>
编码为<
and >
。例如:
我正在尝试更改为:
修改文本 XmlNode 值的最简单方法是什么?
python - 美丽汤中的 UnicodeEncodeError (python 2.7.1)
我在这里在 python 2.7.1 上使用 Beautiful Soup 3.2。
我最近一直在尝试做一些简单的工作,但这似乎相当棘手:
我执行以下操作:
但是,我收到错误:
如果我再次运行相同的循环,有时,我也会得到:
如何避免此错误?显然 sgmllib.py 有问题。
我尝试了 SOF 的一些解决方案:
*] 尝试soup = BeautifulSoup(page, fromEncoding=<encoding of the page>)
结果:剂量工作,同样的错误。
*] 尝试将我的 sgmllib.py 从 2.7.2 版本升级到我的 2.7.1 版本结果:剂量工作,同样的错误。
*] 尝试html = BeautifulSoup(page.encode('utf-8'))
结果:剂量工作,同样的错误。
我将不胜感激有关如何解决此编码错误的任何建议。
c# - 从 Xml 文档中删除 jquery 和 CSS
我正在使用 sgmlreader 将 HTML 转换为 XML。输出进入一个 XmlDocument 对象,然后我可以使用 InnerText 方法从网站中提取纯文本。我试图通过删除任何 javascript 使文本看起来尽可能干净。遍历 xml 并删除任何<script type="text/javascript">
内容很容易,但是当任何 jquery 或样式未封装在任何标签中时,我遇到了障碍。有人可以帮帮我吗?
示例代码:
第一步:一旦我使用 webclient 类下载 HTML,我保存它,然后使用文本阅读器类打开文件。
第二步:创建 sgmlreader 类并将输入流设置为文本阅读器:
第三步:一旦我有了一个 xmldocument,我就使用 doc.InnerText 来获取我的纯文本。
第四步:我可以像这样轻松删除 JavaScript 标签:
有些东西还是漏了。这是我正在编写的一个特定网站的输出示例:
需要删除该 jquery 和样式。
windows-8 - SgmlReader 和 System.Xml Windows 8
我正在尝试使用 SgmlReader 将 HTML 流转换为 XML 以进行进一步解析。此转换是我正在为 Windows 8 应用商店开发的 APP 的一部分。以下是将 Html 转换为 XML 的方法:-
sgmlReader.WhitespaceHandling = WhitespaceHandling.All; 是 Xml.WhitespaceHandling 不存在的问题。还有其他方法可以做到这一点吗?
sgmlreader - SgmlReader 在 Nuget 包中嵌入 DTD
几天前我报告说,DTD 模式没有嵌入到 SgmlReader 的 nuget 包中。 那里的帖子
但是我得到了回应,然后它被嵌入了,为了使用它,我必须将 DocType 设置为“HTML”它仍然对我不起作用,有人对 Nuget 提供的 1.8.8 版有同样的问题吗?(1.8.7 对我来说很好)
我使用 DotPeek 反编译了这两个版本,但在 1.8.8 中没有看到 DTD(附截图)
sgmlreader - 如何停止 SGMLReader 添加缺少的标签,如输出
我正在使用 SGML Reader 来格式化我的 html 片段,如下所示https://github.com/MindTouch/SGMLReader。问题是它在代码中添加了缺失的标签。有什么办法可以阻止它。
xml - 在 Window Phone 应用程序上使用 SgmlReader
有没有办法为 Window Phone 应用程序包含 SgmlReader?我无法通过 Install-package SgmlReader incompatiable asssembly 错误安装它
如果这是不可能的,有没有其他方法可以在 Window Phone Application 8.0 中执行 HTML 到 XML?
perl - Perl:无法在 Mac OSX 中构建 SGML::Parse::OpenSP 和代理错误
我在 OSX 10.9.1 上运行 Perl 5.16.2,我在从 CPAN 安装模块时遇到了困难。我安装成功
但是,当我尝试类似
我得到错误
我尝试使用重置 CPAN shell 中的 HTTP 和 FTP 代理变量
但是,错误仍然存在。
另外,当我尝试安装以下软件包时
我得到错误
相关的错误是
更新:
我使用 fink 安装了 OpenSP,并且 fink 将它安装在我的根目录中
该目录sw
是由 fink 在我的根目录中创建的。我正在使用,但我无法弄清楚为什么在尝试构建时sudo cpan SGML::Parser::OpenSP
找不到此文件。ParserEventGeneratorKit.h
任何建议将不胜感激。
谢谢