问题标签 [search-engine-bots]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
asp.net - 允许搜索机器人在没有会话 ID 的情况下抓取您的网站
谷歌的网站管理员指南状态
允许搜索机器人在没有会话 ID 或跟踪其在站点中的路径的参数的情况下抓取您的站点。这些技术对于跟踪个人用户行为很有用,但机器人的访问模式完全不同。使用这些技术可能会导致您网站的索引不完整,因为机器人可能无法消除看起来不同但实际上指向同一页面的 URL。
我的 ASP.NET 1.1 站点使用自定义身份验证/授权,并且非常依赖会话 guid(类似于这种方法)。我担心允许非会话跟踪流量会破坏我现有的代码或引入安全漏洞。
允许非会话跟踪机器人爬取正常会话跟踪的站点有哪些最佳实践?除了检查用户代理之外,还有什么方法可以检测搜索机器人(我不希望人们把自己伪装成 googlebot 来绕过我的会话跟踪)?
web-crawler - robots.txt 文件中的允许和禁止
我想禁止 SE 机器人访问我网站上的所有文件和文件夹,但其中的特殊文件夹和文件除外。我可以在 robots.txt 文件中使用这些行吗?
这样对吗?
search-engine - Google 爬虫找到 robots.txt,但无法下载
谁能告诉我这个 robots.txt 有什么问题?
http://bizup.cloudapp.net/robots.txt
以下是我在 Google 网站管理员工具中遇到的错误:
实际上,上面的链接是执行机器人动作的路线的映射。该操作从存储中获取文件并将内容作为文本/纯文本返回。谷歌表示他们无法下载该文件。是不是因为这个?
css - 使用 Javascript 解决 SEO 问题
我想知道在哪个阶段可以开始使用 Javascript 操作 HTML 元素/内容以免损害 SEO?
我在某处读到,使用 CSS 属性隐藏的 HTML 内容display:none
经常受到谷歌爬虫的惩罚,这有充分的理由让我相信......我问这个是因为我打算有一些最初隐藏的 div 面板,但在用户单击适当的链接后显示。因此,我的意图不是完全向用户隐藏内容——只是为了给他们更好的用户体验——我担心谷歌可能不会这么看!
我这样做的原因是为了防止在我的 Javascript 进入位置、隐藏和整理所有内容之前出现可怕的无样式 html 元素(定位)的瞬间(或在某些情况下,整整 2 秒)。因此,display:none
在最前面添加,然后使用 Javascript 来切换可见性本来是理想的,但显然是谷歌搜索引擎机器人的禁忌。
各位专家有什么建议吗?谢谢!
seo - 新站点进入旧域
我有一个客户,多年来,他设法让他们的产品在许多不同的搜索词中登上谷歌的榜首。他们坚持认为新网站不应该对他们的谷歌排名产生不利影响。
该站点将替换当前域上的站点,并增加 5 个其他域。
这会失去目前在谷歌上排名的客户吗?
asp.net - ASP.Net 如何允许搜索机器人(谷歌)跳过免责声明页面
我正在创建一个 ASP.NET 网站,强制用户接受免责声明。当他们接受免责声明时,就会设置 cookie 和会话。在每个页面请求上,都会触发检查以查看会话或 cookie 是否存在。
我们希望允许 Google 和其他搜索机器人在不接受免责声明的情况下索引/抓取所有页面。
最好的方法是什么?我唯一能想到的就是检查Request.ServerVariables
,但我不确定我应该寻找的女巫价值观?
http-headers - 如果我使用 HTTP 代码 418 AKA “我是茶壶”来响应 robots.txt 请求,这会让搜索引擎不喜欢我吗?
我有一个非常简单的 web 应用程序,它在 HTML5 的 Canvas 中运行,没有任何需要由搜索引擎索引的公共文件(除了包含对所有必要资源的调用的首页 HTML 文件之外)。因此,我真的不需要robots.txt
文件,因为他们只会看到公共文件,仅此而已。
现在,开个玩笑,每当网络爬虫请求robots.txt
. 但是,如果这最终会让我在搜索结果中的位置方面搞砸了,那么这对我来说不是一个非常值得的玩笑。
有人知道不同的网络爬虫如何响应非标准(尽管在这种情况下它在技术上是标准的)HTTP 代码吗?
此外,更严肃地说,是否有任何理由拥有一个robots.txt
文件,上面写着“一切都是可索引的!” 而不是没有文件?
javascript - 搜索机器人或垃圾邮件机器人是否能够模拟/触发 JavaScript 事件?
搜索机器人或垃圾邮件机器人是否能够在读出页面时模拟/触发 JavaScript 事件?
search-engine - “分类引擎”?
任何人都可以解释搜索引擎领域中的“分类引擎”吗?我用谷歌搜索了它,但找不到任何令人满意的解释。即使是参考链接也会有所帮助!
PS:提前谢谢!
web-scraping - 搜索机器人检测
是否可以防止网站被任何抓取工具抓取,但同时允许搜索引擎解析您的内容。
仅仅检查用户代理并不是最好的选择,因为很容易模拟它们。
JavaScript 检查可能是(谷歌执行 JS)一个选项,但一个好的解析器也可以做到这一点。
有任何想法吗?