您遇到的主要结构是标签、实体和文本。还有其他一些不太常见的(特别是:处理指令、文档类型声明和 XML 声明)。
实体是以 a 开头和以 a&
结尾的字符序列;
,您通常会遇到诸如等>
之类的字符&
。它们代表其他事物(例如特定角色,但这些并不是唯一的可能性)。
XML 声明是文档开头<?xml
和结尾的序列?>
。它看起来类似于处理指令(也以 开头<?
),但形式上不是。
Doctype 声明开始于<!
并且是您应该获取 XML 库而不是尝试自己解码的地方;文件类型系统复杂!