问题标签 [googlebot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
localization - 使用 Cookies 搜索引擎进行本地化是否兼容?
我正在本地化一个网站。我打算将cookie设置为首选语言,然后显示相应的语言。而且,如果没有设置 cookie,它将使用用户浏览器设置的首选语言标题 - 如果未设置标题,则默认为英语。
那么 - 谷歌的机器人是如何工作的?它会抓取所有网站一次,每个网站在标题中设置不同的语言,以便它可以获取网站的每个版本,还是甚至设置标题?如果不是,那么我是否必须重组所有这些以使用基于 URL 的语言选择器(www.domain.com/en/page.html www.domain.com/fr/page.html)。
seo - 搜索引擎优化:谷歌机器人是否在隐藏的 div 中看到文本
我的网站上有登录/注册弹出窗口,默认情况下隐藏在 div 中。根据谷歌搜索引擎优化和隐藏元素googlebot 不应该看到它。
但是谷歌网站管理员工具说关键字“电子邮件”和“密码”是网站上的热门关键字。
为什么会这样?为什么 google bot 会看到它们?
我应该担心热门关键字的相关性吗?
javascript - JS动态img变化和SEO
我已经使用 jquery 构建了一个网站,以便在内容之间进行很好的转换。
代码以这种方式工作:有 2 个图像(正文和页脚)。
当我单击一个链接(而不是转到另一个页面)时,我会淡出 2 个 img 并更改 2 的 src 属性。当加载新的 img 时,我会将它们淡入。
我SWFaddress
用来允许用户直接访问内部内容。
现在我想让我的内容被谷歌和其他搜索引擎索引,所有的文本内容都在 imgs 里面,所以我在 ALT 属性中得到了文本。
我的问题是:
如果使用 JS 动态更改 imgs 的 ALT 属性,蜘蛛是否能够正确读取它?
考虑一下我正在使用SWFaddress
创建站点地图。
seo - 如何在向用户提供用户友好内容的同时为谷歌返回正确的 404?
我在这里和超级用户之间来回切换。如果你觉得这不属于这里,请原谅。
我正在观察此处描述的行为- Googlebot 正在我的网站上请求随机网址,例如aecgeqfx.html
or sutwjemebk.html
。我确信我不会从我网站上的任何地方链接这些网址。
我怀疑这可能是谷歌探索我们如何处理不存在的内容 - 从链接问题的答案中引用:
我们有一个用于不存在内容的自定义页面 - 一个样式页面显示“找不到内容,如果您认为自己误入了这里,请联系我们”,带有一些内部链接,(自然)使用200 OK
. 直接提供 URL(不重定向到单个 url)。
恐怕这可能会在谷歌上歧视该网站 - 他们可能不会将用户友好页面解释为,404 - not found
并且可能认为我们试图伪造某些东西并提供重复的内容。
我应该如何确保谷歌不会认为该网站是虚假的,同时向用户提供用户友好的信息,以防他们意外点击死链接?
coldfusion - 为什么我的 ColdFusion 页面向搜索引擎返回一个空白页面?
我已经完成了大量的 ASP.NET 和 PHP 开发,但我不太熟悉如何在 CF 中跟踪这类事情。我天真的第一个攻击角度是在任何源代码中搜索对 Google 的任何引用。没运气。
我在 IIS7 上运行该站点。谷歌、必应和雅虎显然都在我的网站上“看不到”任何东西。
更新:我以 Googlebot 的身份运行 Fetch 并得到以下信息:
dns - Googlebot 从哪里开始抓取?
假设我注册了一个域并将其开发为一个完整的网站。Googlebot 从哪里以及如何知道新域已启动?它总是从域名注册开始吗?
如果它从注册表开始,这是否意味着任何人都可以完全访问注册表的数据库?感谢您的任何见解。
authentication - 匿名用户支持 vs Google bot
我的 Web 应用程序中有一个User
类,它代表当前登录的用户。每次用户访问页面时,User
都会根据 cookie 中提供的身份验证数据填充一个实例。
User
即使匿名用户登录,也会创建一个实例 - 并User
在数据库的表中创建相应的新记录。
这种方法允许我为当前用户保存一些状态信息,无论其类型如何。
然而,这种方法的问题在于 Google 机器人和其他非人类网络生物正在爬取我的页面。每次机器人开始在网站上四处走动时,都会在数据库中创建数千条无用的记录,每条记录仅用于单个页面。
问题:最好的权衡是什么?如何支持匿名用户,保存他们的状态,并且不会因为 cookieless 机器人而获得太多开销?
php - 验证 Googlebot
我将阻止除大型搜索引擎之外的所有机器人。我的阻止方法之一是检查“语言”:Accept-Language:如果它没有 Accept-Language,则机器人的 IP 地址将被阻止到 2037 年。Googlebot 没有 Accept-Language,我想用 DNS 验证它抬头
可以用gethostbyaddr
吗,有人能通过我的“gethostbyaddr 保护”吗?
html - 有没有办法让机器人忽略某些文本?
我有我的博客(如果需要,可以从我的个人资料中查看),而且很新鲜,还有 google 机器人解析结果。
结果令我震惊。显然,我网站上最常见的两个词是“rss”和“feed”,因为我使用文本作为“评论 RSS”、“Post Feed”等链接的文本。这两个词将出现在每个帖子中,而其他词会比较少见。
有没有办法让这些链接从谷歌的解析中消失?我不希望技术链接被编入索引。我只希望内容、标题、描述被编入索引。除了用图像替换此文本之外,我还在寻找其他东西。
从 2007 年开始,我在 Google 上发现了一些旧讨论(我认为 3 年内很多事情都可能发生变化,希望这也是)
这个问题与 robots.txt 以及如何让 Google 忽略页面无关。它是关于让它忽略页面的小部分,或者以一种人类可以看到而机器人不可见的方式转换这些部分。
search - 仍然在 Google 中找到非索引文件 (?)
我的页面 /admin/login.asp 怎么可能在 Google 中通过查询“inurl:admin/login.asp”找到,而没有通过“site:www.domain.xx”查询?
我的 robots.txt 中有这行代码:
这在页面的 HTML 代码中:
有任何想法吗?