我一直在关注本教程来学习如何使用 Scrapy。我使用绿皮书作为我的示例站点来测试网络抓取。功能之一: SgmlLinkExtractor 接受一个参数,该参数是“下一页”按钮的href。问题是对于 greenbook ,如果您通过 firefox 检查元素,“下一页”按钮的 href 是“#”
这些是我的问题
1) 以这种方式使用“#”是什么意思:href="#"
2)我该如何解决这个问题
谢谢
您可以使用#
指向ID
页面上的 a 而不是重定向到URL
.
当您看到诸如“单击here
以滚动到页面底部”之类的内容时
here
href 将是#bottomOfPage
该属性href="#"
的含义与 相同href=""
,即对当前文档开头的引用。但是,它很少用于链接到开头。相反,它使用了一个占位符,使a
元素正式成为一个链接,并且从样式的角度来看也是一个链接,但在预期元素具有事件处理程序或覆盖onclick
其值的上下文中。href
参照。to空的 href 有效吗?我应该为 JavaScript 链接使用哪个“href”值,“#”还是“javascript:void(0)”?
在您的情况下,听起来您正在使用的软件生成下一页“链接”,这些“链接”不是真正的链接,而是由 JavaScript 驱动并href="#"
仅作为占位符携带。这不适用于期望href
属性为真实的其他软件。这取决于这两个软件是否以及如何使它们一起工作。