问题标签 [google-crawlers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
12530 浏览

pdf - 我应该在我的站点地图文件中列出 PDF 吗?

我应该将 PDF 添加到我的 XML 站点地图吗?

我想知道 Google 是否会抓取 PDF。

0 投票
2 回答
836 浏览

indexing - 将要

This should be an easy one for someone:

Will the <noscript> element cause the HTML page to serve only the content within the <noscript> tag itself to google crawlers and hide all the rest of my static content causing it so not to be indexed?

Thanks!

0 投票
1 回答
530 浏览

html - 包含链接的列表框值

嗨,我目前正在改进包含下拉列表菜单的网站上的 SEO。当前,当您选择选项然后提交 javascript 时,会将您重定向到下一页

我从一些人那里听说我可以将我想要索引的链接放在下拉列表的值中,并且谷歌爬虫会将它作为链接捕获并索引它。

考虑到 Value 属性不是链接 href,我个人认为它不会起作用,而且我认为谷歌爬虫不会解析每个选项值并尝试查看它是否是有效链接

所以问题是......你们怎么看......是否可以简单地将我的链接放在值字段中,或者我应该在纯html中构建一个隐藏菜单(li // ul,带有包含链接的标签)在我页面的某个地方

如果爬虫可以在选项的值中捕获链接..我是否需要将整个链接放入http://.../page/page.html或者我可以简单地放入 /page/page.html

谢谢你的时间。

0 投票
1 回答
130 浏览

google-search-console - 我们可以决定我们在谷歌中的附加链接应该是什么吗?

我有一个与数学相关的网站,谷歌为我的网站创建了附加链接,:) :) 谷歌给我的网站一些优先权

我正在使用谷歌网络管理员工具

并且有一个选项可以阻止该列表中任何不需要的链接......

但附加链接并不完全是我网站的子类别。

我们可以决定我们在谷歌中的附加链接应该是什么吗?

注意:我尝试创建一个新标签作为“google-sitelinks”,但没有声誉我无法创建这样的标签。

0 投票
1 回答
694 浏览

javascript - AJAX 加载的内容可被谷歌抓取

这是我的情况:我使用一些外部源将 html 数据加载到我的页面,然后我将此 html 的内容放入 div。因此,一旦页面加载并完成 ajax 调用,我就会看到结果。

它可以工作,好的.. 但现在我想起来了,这个动态加载的内容不能被 Google bot 抓取.. 这是我不喜欢的东西:)

有什么办法可以对 google bot 说,那个 page page,实际上包含 page 的内容?

例如,如果我从http://external.com/test.htm加载一个页面,并将其加载到 div,我可以使用类似

?

我希望你能理解我的问题,如果没有,请发表你的意见!

谢谢!

0 投票
1 回答
504 浏览

seo - 对于SEO视角动态内容好不好

我的主页上有 5 个动态文章,(随机)

谷歌阅读我的内容的速度有多快,

首先告诉我,Google 是否真的会 cron 我的内容,因为每次页面刷新都会更改我的内容,

所以我有这个疑问,

谷歌是否会抓取随机内容?

谢谢

0 投票
5 回答
7754 浏览

web-crawler - 如何判断网络请求是否来自谷歌的爬虫?

从 HTTP 服务器的角度来看。

0 投票
2 回答
101 浏览

google-crawlers - 爬虫访问我的 cronjobs?

我已经建立网站好几年了,主要是在 php 中。有几个站点有 cronjobs,通常每天运行一次。cronjobs 运行的 php 文件与提供站点页面的文件一起存储在服务器上。

我知道各种爬虫,无论是合法的还是非法的,都会访问我网站的各个页面。现在,如果爬虫访问我的一个 cronjob 文件,这将激活 cronjob,有时会产生不良结果。

我很确定这从未发生过,虽然我很感激,但我正在努力理解为什么。当然,我的任何 cronjob url 都没有任何链接,但我很确定各种爬虫已经访问了其他页面,即使它们从未链接到。

其他开发人员如何解决此问题?在 robots.txt 文件中添加一行?设置 cronjob-relate php 文件的权限?

提前致谢。

0 投票
2 回答
1037 浏览

html - 是图像映射(html标签 -) crawled by google?

有没有人确切地知道图像地图是否被谷歌抓取?

我想实现一个图片栏——上面有我们合作伙伴的 10 个徽标,并使用 imagemap 链接到他们的网站。谷歌的蜘蛛能抓取它吗?

谢谢

0 投票
1 回答
385 浏览

tomcat - Tomcat7 & Struts1 - 处理大量 Google Bot 点击

我的一台服务器上超过一半的点击来自 Google Bot,它不断地爬取我们数百万的页面。

我们有这么多页面的原因是该公司是一家汽车配件商店,对于制造商零件编号及其适合的车辆的每种组合都有唯一的 URL。这不是我们可以摆脱的;人们一直在搜索这些术语,我们需要为每个术语提供唯一的登录页面(因为我们所有的竞争对手都有它们,当然!)。

因此,我们有数百万个页面需要 Google 了解。这意味着我们每秒从他们的爬虫中获得数次点击,全天候,这是与任何最终用户流量一样重要和必要的流量。

因为我们不断地向目录中添加新产品,每周大约有数十万个,所以我们的唯一 URL 列表越来越长,并且流量一直在稳步增长。

Google bot 不关注 cookie,这意味着它每次都会获得一个新会话,因此这会将我们的内存使用量提高到分配的最大值。

其他使用 Tomcat7 和 Struts 的人如何处理如此庞大的自动化流量?

我计划尝试的方法是在每个请求结束时在页脚 JSP 磁贴中使会话无效(当且仅当用户代理字符串是 Google 爬虫时)。这是节省内存的有效技术吗?

还有哪些其他策略可以帮助我们更有效地处理机器人流量?