我正在尝试阅读/解析网页。一些表格元素似乎有许多制表符和换行符。
很好奇为什么几个单词前面有制表符/换行符。
这是为了可读性和可维护性。它有助于识别块级和容器元素,并确保开始标签具有结束标签。基本上它是为了让开发人员的生活更轻松,因为浏览器不关心缩进。
您可能会看到如下标记:
<table id="stuff">
<tbody>
<tr>
<td>
Hello World!
</td>
</tr>
</tbody>
</table>
doc = Nokogiri.HTML(some_string)
p doc.at('#stuff td').text
#=> "\n\t\t\t\tHello World!\n\t\t\t"
如您所见,这确实是该单元格的文本内容。