-1

html代码就像

<td><12</td>

我想得到“<12”,但是当我使用“select('td/text()').extract()”时,我得到“[u'\r\n\t\t\t\t \t\t']”。

每个包含“<”的项目都是这样的。我怎样才能得到“<12”?谢谢!

4

1 回答 1

1

不要输入<12HTML,而是输入&lt;12. 那应该正确渲染和解析。

解释是 HTML 被认为<是一个标签开启器,所以它让他感到困惑。出于这个原因,您需要使用一个称为“转义”的过程,这意味着您将所有特殊字符转换为正常的“转义符号”,您的浏览器(或任何正在阅读您的 HTML 的东西)应该能够识别这些字符。

一个快速的谷歌搜索给出了这里的列表。

于 2013-03-31T07:22:42.837 回答