问题标签 [google-crawlers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - 页面 url 链接到页面内部框架
我有一个个人网站,我在没有模板的情况下(尽我所能)制作了这个网站。我在 HTML 方面不是很有经验,所以不完全确定这是否是不好的做法,但这是我的问题。
我的网站由一个frameset
3 个框架组成。两个不改变(横幅和导航面板),另一个是内容。我在主框架中显示内容的方式是通过 iframe。麻烦就在这里。我已经向爬虫推荐了我的网站,它当然会爬取所有页面的内容。当我单击 google 建议的链接之一(例如,一个项目)时,浏览器会加载该单个.html
文件,而没有任何其余的框架。换句话说,它不会通过index.html
设置格式和页面框架的 my 链接到页面,而只是将 html 作为独立页面加载。
有没有办法可以避免这种情况,这样如果我的网站链接是从外部链接(而不是我的域)点击的,该页面首先加载我的index.html
,然后是感兴趣的页面,这样看起来就好像它从我的索引正常访问?我不确定是否应该找到一种在主框架中显示我的内容的新方法,以避免 iframe,或者只需要一个简单的脚本来重定向用户。
不确定它是否有用,但我附上了我的页面照片,只是为了更好地解释我正在使用的框架布局。
非常感谢!!!
subdomain - 我需要站点的每个子域的站点地图吗?
我有一个使用托管在子域上的不同较小站点构建的站点。子域和根域之间有很多链接,所以所有页面都可以合理到达。
每个站点都需要单独的站点地图吗?较小的站点之一是 WordPress 博客,生成站点地图很容易。但是,其他一些没有站点地图生成器。
我真的需要每个站点的站点地图,还是只要至少有一个链接到它们,我可以期望谷歌抓取所有页面吗?
ajax - Ajax Crawlable 站点 - 使用 WaTin 获取 HTML 快照
我想使用 Watin 来获取 html 快照,以使我的单页 ajax 应用程序可以按照 google 规范进行爬网。
有人可以向我展示如何使用 Watin 将 html 快照返回给 googlebot 的代码示例吗?
这是我到目前为止所拥有的,但老实说,我什至不确定我要去哪里,我真的没有在网上找到一个可以真正清除它的例子:
控制器:
javascript - How do search engines crawl Javascript?
If I add random keywords alt attrb to the images using jQuery document.ready (thinking that the page is already loaded), how does it affect search engines?
Will the search engines get the alt attrb that I added with any JavaScript at all? If not how come it can understand Ajax calls sent via JavaScript?
I want to add the alt attrb to images that don't have any in my client's site, in case they forget to put an alt text. jQuery will replace the empty ones with keywords. Is this possible?
java - 搜索引擎优化,谷歌抓取
我已经实现了如下的分页
这意味着共有 213 个产品,这是第一页。当我检查 Google 在我的网站中抓取了哪些页面时,我看到的结果如下
这意味着谷歌以某种方式将所有页码附加到 URL 的末尾并抓取该 URL。有人可以给我一个解决方案来阻止这种情况吗?对于这种特殊情况,我希望 Google 只抓取一个包含所有产品信息的页面。
web-crawler - 爬虫/搜索引擎如何遍历网络?
商业搜索引擎爬虫如何遍历网络:“识别种子页面并通过连接的链接找到其他页面”或“索引网站wwwroot目录下的每个文件。”
在以后的选项搜索引擎的情况下,甚至应该有索引的东西没有被任何其他页面引用?
php - 关于google爬取php页面
我有一个网站,基于 php。我想知道谷歌是否会抓取具有相同标题但内容不同的 php 网站。
http://www.nyitforums.com/professors/browse_all_prof.php?bdepartment=0
每个“查看”按钮都返回相同的 html 模板但结果不同,那么 google 会抓取所有这些吗?如果没有,我该怎么做?提前致谢。
javascript - js滑块网站-谷歌抓取
我目前正在构建一个带有 js 滑块的网站。基本上网站的所有页面(在这种情况下是幻灯片)都包含在一个大的 html 页面中。
这些页面/幻灯片被组织在<div>
标签中,比如<div id="#slide1">, <div id="#slide2" >
,等等
当您在页面/幻灯片中滑动时,会更新 URL,例如 www.mysite.com/#!slide1,然后是 www.mysite.com/!#slide2 等
是否可以告诉爬行机器人每个 div 应该被视为一个页面?
幻灯片未在 ajax 中加载。
asp.net-mvc-3 - 如何修复不应被 GoogleBot 和其他搜索引擎爬虫抓取的索引页面?
在现有的 .Net MVC3 站点上,我们实现了 URL 类似于 的分页www.mysite.com/someterm/anotherterm/_p/89/10
,其中 89 是页码,10 是每页的结果数。
不幸的rel="nofollow"
是,大于 3 的页码链接丢失了,并且这些页面也丢失了<meta name="robots" content="noindex,nofollow" />
。
问题是谷歌和其他一些搜索引擎现在已经索引了这些页面,并且现在尝试非常频繁地抓取所有这些页面,正如我们发现的那样,这开始对 prod db 服务器产生巨大影响。我们不希望抓取所有额外的数千个页面,只抓取前几个。
我将代码恢复为不包含分页的站点版本,这样我们的数据库服务器现在就不会受到如此严重的打击。因此,虽然搜索引擎会为所有这些页面收到 404 错误,但我想知道这是否是最好的做法,因为过一段时间我会再次介绍分页站点?
我可以将以下内容添加到 web.config 以将所有 404 重定向到主页:
但我认为,对于所有具有分页 URL 参数的页面,这样做将被呈现为“重复内容”。
让那些 404 持续一两个星期然后重新引入寻呼站点是最好的主意吗?
另一种选择可能是释放分页站点,并添加一些代码以拒绝超过 3 个页面的爬虫。建议?
有没有更快的方法将这些页面从索引中取出,这样它们就不会被抓取?
谢谢。
web-crawler - SEO - 爬虫如何处理域名本身?
我打算为一个新的 Web 项目获取一个域。我不是 SEO 专家,但我知道一些关于 SEO、HIT 和 Page Rank 算法的知识,并且也对域名及其在 SEO 中的作用进行了一些研究。
我很难找到有关域名本身作用的更多信息。也许你可以通过一个小例子让我明白这一点。假设我会为“最好的朋友”计划一个网站。
我会考虑这样的域:
- www.friends-best.com
- www.for-best-friends.com
- www.best-friends.com
- www.bestfriends.com
假设人们会在他们的搜索引擎中输入“最好的朋友”,那么哪一个是最好的?我会假设“www.bestfriends.com”。
我的困惑:域名不包含不同的单词,它是一个大字符串,每个示例都包含子字符串“best”和“friends”。如果它们包含完全相同的网站,搜索引擎将如何处理这些域:相同的标题、内容、替代标签、站点地图、传入和传出链接、元描述和所有 SEO 内容?