html代码就像
<td><12</td>
我想得到“<12”,但是当我使用“select('td/text()').extract()”时,我得到“[u'\r\n\t\t\t\t \t\t']”。
每个包含“<”的项目都是这样的。我怎样才能得到“<12”?谢谢!
不要输入<12
HTML,而是输入<12
. 那应该正确渲染和解析。
解释是 HTML 被认为<
是一个标签开启器,所以它让他感到困惑。出于这个原因,您需要使用一个称为“转义”的过程,这意味着您将所有特殊字符转换为正常的“转义符号”,您的浏览器(或任何正在阅读您的 HTML 的东西)应该能够识别这些字符。
一个快速的谷歌搜索给出了这里的列表。