问题标签 [sgml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
100 浏览

python - HtmlParser.entityref 实际上是匹配 html 实体引用的有效正则表达式吗?

这是来自Python 2.7 HtmlParser的代码:

以前,我认为它更像这样:

所以我对来自一些奇怪来源的一些奇怪数据感到惊讶。

我的用例无关紧要;是否有任何理由像 HtmlParser 一样定义实体引用?


不相关的用例:如果有人想知道,我仍然描述我的用例。请注意,我不再试图解决我的用例。我的问题是 HtmlParser 的 entityref 是否有问题。

我的用例类似于:Strip HTML from strings in Python

我说的输入数据是这样的:

我的用例的预期输出是r"""a&Il_'d@m_'""".


编辑我试图将正则表达式与这个 sgml 参考进行比较,据我所知,实体参考应该;但我对这个话题不太熟悉,所以我想问一下。

0 投票
1 回答
41 浏览

regex - 获取 sgml 允许“example.xom/page/200/”的正则表达式

我正在尝试获取“ example.com/page/200/ ”的正则表达式。

这是我到目前为止所做的:

你们中的任何人都可以给我一个解决方案吗?谢谢。

0 投票
1 回答
156 浏览

sgml - TEI 格式与 SGML 格式

谁能解释TEISGML格式之间的区别和/或它们之间的关系?

0 投票
1 回答
138 浏览

python - SgmlLinkExtractor 不显示结果或以下链接

我无法完全理解 SGML Link Extractor 的工作原理。使用 Scrapy 制作爬虫时,我可以成功地从使用特定 URL 的链接中提取数据。问题是使用规则来跟踪特定 URL 中的下一页链接。

我认为问题在于allow()属性。将规则添加到代码中时,结果不会显示在命令行中,并且不会跟随到下一页的链接。

任何帮助是极大的赞赏。

这是代码...

0 投票
3 回答
27 浏览

html - HTML/XML 中是否存在无法完全包含标签的有效案例?

我认为在 XML 和 HTML 中不允许有跨范围的标签。也许 SGML 允许它。但是,在 XML/HTML 中,是否存在任何可能发生这种情况的有效且允许的情况?

就像是:

这可能会生成如下输出:“这是这里的一些示例文本!”

(旁注:SO markdown 解析器显然可以处理它,谁知道?)

0 投票
3 回答
605 浏览

java - 使用 sax 解析器解析 sgml

在我的作业中,我应该解析一些sgml文件。我用SAXParser. 它适用于一个简单的xml文件。但是当我想解析作业sgml文件时,会发生此错误:

我没有任何dtd文件知识。我的代码是:

我怎样才能防止这个错误?

对不起我的英语不好

0 投票
0 回答
581 浏览

regex - 我将如何处理大量结构化但不一致的数据?

我正在尝试解析EDGAR 文件——它们是 SEC 文件。具体来说,我正在尝试解析SEC 附表 13D附表 13G文件。

解析这些文件似乎有很多失败的尝试,我认为这是因为这样做是整个团队必须解决的庞然大物任务。

我的任务是解析这些文件。我们需要整个数据表中的信息。问题是记录在案的文件让我很难区分数据点、表格部分标题等。

到目前为止,我只能从大约 10% 的 Schedule 13D 文件中抓取信息,甚至我抓取的内容也需要大量清理。简而言之,我将正则表达式模式与文本匹配。该模式采用一个已知的(英文)部分标题和下一个(我手动设置)并提取两者之间的内容:例如,CHECK THE APPROPRIATE BOX IF A MEMBER OF A GROUP(.*?)SEC USE ONLY. 显然,这不会让我走得太远,事实并非如此。使用相同的逻辑,这是我基于以下示例字符串(作为示例)得到的:

示例文本

报告人姓名 IRS ID NOS。上述人员(仅限实体)Robert DePalo 如果是团体成员,请勾选适当的方框(参见说明)(a) (b) SEC 仅使用资金来源(参见说明)如果需要披露法律程序,请勾选方框第 2(d) 或 2(e) 项公民身份或组织所在地美国唯一投票权45,119,857 (1) 共享投票权-0-唯一处置权45,119,857 (1)10.共享处置权-0-11.总金额每个报告人实益拥有 45,119,857 (1)12.如果第 (11) 行中的总金额不包括某些股份(请参阅说明),请勾选方框 13. 第 (11) 行中的金额代表的类别百分比 (2)33.4% (2) 14. 报告人类型(见说明)(1) 由 44,194 人组成,报告人持有 298 股普通股,Arjent Limited UK 持有 925,559 股普通股。报告人是 Arjent Limited UK 的董事长,对其持有的股份具有投票权和投资权。不包括报告人和报告人妻子拥有的实体有权获得的任何类别的优先股,如下文第 6 项所述。(2) 不包括报告人有权获得的投票权如本附表 13D 第 6 项所述,根据 SPHC B 系列优先股。

示例输出 key: CHECK THE | v: (a)    (b)     key: CITIZENSHI | v: United States key: CHECK BOX | v:       key: SHARED VOT | v: -0- key: PERCENT OF | v: PERCENT OF CLASS REPRESENTED BY AMOUNT IN ROW \(11\) key: TYPE OF RE | v: TYPE OF REPORTING PERSON \(see instructions\) key: CHECK BOX | v:     13. key: SOLE DISPO | v: 45,119,857 key: SEC USE ON | v: SEC USE ONLY key: SHARED DIS | v: -0 key: SOLE VOTIN | v: 45,119,857 key: NAMES OF R | v: Robert DePalo key: AGGREGATE | v: 45,119,857 12. key: SOURCE OF | v: SOURCE OF FUNDS \(see instructions\)

还有其他方法吗?这不适用于大多数 13D 文件,也不适用于 13G。我觉得我的方法有点太天真了,我需要一种通用的方法来解决这样的问题。我希望刮掉至少 80% 的文件中的至少 80%。

0 投票
2 回答
582 浏览

java - 无法使用 Java 和 JAXB 解组奇怪的 XML 格式

我需要使用 Open Financial Exchange (OFX) 协议检索财务数据。为此,我使用 JAXB 将对象树编组为指定数据请求参数的 XML 字符串,然后将此 XML 字符串发送到银行的服务器。然后银行以包含所请求数据的 XML 字符串进行响应,我使用 JAXB 将其解组到对象树中。对于我尝试的前几家银行,我收到了符合已发布 OFX 模式的格式良好的 XML 格式的数据,并且我能够使用 JAXB 轻松解组它。

然而,当我向花旗集团索取数据时,他们给我发回了以下信息:

请注意,这是实际输出的缩写形式,但足以说明问题。问题是我无法弄清楚如何使用 JAXB 来解组这些内容。它不是格式良好的 XML,因为 (1) 它没有 XML 标头,(2) 自定义处理指令(上面的前九行)未包含在 <?...?> 标记中,以及 (3 ) 最重要的是,simpleTypes 只有开始标签,没有结束标签。

我已经到处寻找答案,并在几个地方发现了类似的 XML-ish 格式,其中一个地方表明这甚至可能是通过 Web 发送 XML 的有效格式。但我还没有找到任何可以帮助我解组或解析它的信息。

有没有人有什么建议?当涉及到这些类型的问题时,我通常非常足智多谋(因此这是我在这里的第一个问题),但这个问题让我很难过。提前感谢您提供的任何帮助。

0 投票
1 回答
673 浏览

c# - 是否可以使用 .NET 解析 sgml/xml 中的参数实体引用?

当我尝试使用 XDocument 解析以下数据时,出现以下错误:

“XMLException:内部标记中不允许参数实体引用”

这是我试图解析的示例数据:

这是尝试解析上述文件的代码:

有没有办法让内置的 .NET xml 解析库来处理实体引用,或者至少忽略嵌入的 !Doctype 并解析根元素?

注意:我假设参数实体引用在 XML 中有效。(见这里

0 投票
1 回答
3661 浏览

python - Python:解析 SGML

我正在尝试在 Python 中解析一些 SGML,如下所示:

在这里,我只是在寻找<BODY>标签内的所有内容(即["Sample One", "Sample Two"])。

我尝试过使用 BeautifulSoup,但它不喜欢<!DOCTYPE>第一行中的 ,并且还希望所有内容都被包裹在一个根标签上,比如<everything></everything>. 虽然我可以在将其传递给 BeautifulSoup 之前手动进行这些更改,但感觉有点太 hacky。

我对 SGML 很陌生,也没有和 BeautifulSoup 结婚,所以我愿意接受任何建议。

(对于那些好奇的人:我的具体用例是 reuters21578 数据集。)