问题标签 [search-engine-bots]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - 如何处理元机器人中的多个值?
关于meta
- robots
,我可以输入多少个值?
这是有效的吗?还是多个元元素?
这可能吗?
最佳做法是什么?
javascript - 百度搜索蜘蛛懂Javascript吗?
更具体地说,百度搜索爬虫索引是否/多好 -
- 通过 AJAX 传递的内容
- 历史 API (pushState())
我查看了他们的文档和网站管理员工具,但找不到显示您的网站如何被索引的预览的“以百度机器人方式查看”工具(如 Google 和 Bing 有)?
seo - 从我们的图像服务器中删除谷歌索引
我们做了很多电子邮件营销,有时开发人员会将 html 文件放在图像服务器上(我知道简单的答案是不这样做),但这些 html 文件最终会被 Google 索引并最终在搜索结果中排名靠前。这反过来又使 SEO 公司希望我们删除这些页面。是否可以让谷歌不索引我们子域中的任何内容?我们有 image.{ourUrl}.com,我们将所有这些文件放在其中。
将robot.txt文件放在主目录中可以吗?或者我们是否需要在每个目录中添加该机器人文本文件?
有没有简单的方法来解决这个问题?
asp.net-mvc - 网站管理员工具不喜欢我的页面设置模式
我正在尝试使用网站管理员工具上的突出显示功能。我已经为我的页面填写了它,但是当我去尝试创建页面集时,它没有找到任何与该模式匹配的文件。
谷歌选择的默认模式是:
这还不够好,因为这就是我网站上的所有内容。
我想要的是这样的:
它找不到这个。第一个星号只是 id,第二个 * 是与该 id 关联的名称。
我试着添加这个:
它在这里也找不到任何东西。
这确实有效
那么,为什么我想要的模式没有得到识别?我什至尝试在“团队/时间表”部分复制和粘贴,以确保我没有拼错,但这仍然不起作用。
编辑:
我用于突出显示的“模板”路径如下所示:
类似的页面将是:
search - 网络爬虫和Pagerank
我是一名计算机科学专业的学生,在网络爬虫和构建搜索引擎方面我有点缺乏经验。目前,我正在使用最新版本的 Open Search Server 并爬取数千个域。使用内置的搜索引擎创建工具时,我会得到与我的查询相关的搜索结果,但它们是使用文档的矢量模型而不是 Pagerank 算法或类似算法进行排名的。因此,排名靠前的结果只是微不足道的帮助,而来自 Wikipedia 等网站的更高质量的结果则隐藏在第二页上。
有没有办法在 Open Search Server 中运行粗略的 Pagerank 算法?如果没有,是否有类似的易于使用的开源软件包可以做到这一点?
谢谢您的帮助!这是我第一次做这样的事情,所以非常感谢任何反馈。
asp-classic - IIS 设置影响搜索结果的机器人
这是一个很难解释的问题。我相信由于 iis/站点的设置方式,google bot 会感到困惑。实际问题是,在搜索 Google 时,结果是 www.someSiteURL.com,下面的描述是:
由于此站点的 robots.txt,无法获得此结果的描述 - 了解更多信息。
我认为问题存在的原因是相当清楚的。使用上面的示例,www.someSiteURL.com/default.asp 处没有页面内容。在此级别,有一个 default.asp 文件,其中包含大量重定向,可将用户带到站点所在的正确物理目录。这些站点都位于 IIS 中的一个根“站点”下,如下所示:
您如何在不更改 IP 地址的站点设置/使用的情况下克服这个问题?
这是 robots.txt 文件:
顺便说一句,谷歌网站管理员工具说这是有效的。我知道有些客户可能无法识别“允许”,但 Google 和 Bing 会这样做,所以我不在乎。我宁愿禁止所有,然后只允许站点,而不是仅使用它来禁止特定站点。
如果我使用 Google 网站管理员工具 Crawl > Fetch a Google 并输入 www.someSiteURL.com/default.asp 它的状态为“已重定向”并且其状态为 http/1.1 302 found
.htaccess - 我想重定向我网站的 15000 个页面
我有一个社交网站,我想重定向大约 15000 个以前的网页。其他专家建议我使用 301 重定向。
我只想知道重定向如何不会影响搜索引擎排名,有没有更好的方法来移动所有页面而不会造成任何伤害?
snapshot - Ajaxsnapshot's proxy interfering with CloudFlare's proxy
We are using CloudFlare service for CDN, Security and other services. And we are using Ajaxsnapshot for creating snapshots for Search Bots. The problem is we are getting Error 1000 - DNS points to incorrect IP. When we switch off CLoudFlare settings, Ajaxsnapshot API works and is able to create snapshots. How to solve it so we can use both the services?
seo - 如果我添加html,谷歌不会执行 javascript 吗?
我已经用 angularjs 构建了站点,并且正在使用 html5 pushstate 模式。我还在 html 页面中添加了标签。我不为机器人提供 html 快照。我期待谷歌自己执行 javascript 并索引我的网站。但是,谷歌正在索引 html 页面(不执行 javascript)。我没有心情提供 html 快照,因为我读过 google 很好地执行了 javascript。我已经为 googlebot 添加了上面的元标记来告诉执行 javascript。但它是否因为我添加了元标记而期待快照?
php - codeigniter 中的 robots.txt - 允许查看/功能
我阅读了一些关于 robots.txt 的内容,并且阅读了我应该禁止我的 Web 应用程序中的所有文件夹,但我想允许机器人阅读主页和一个视图(网址例如:www.mywebapp/searchresults - 这是一个codeigniter 路由 - 它是从应用程序/控制器/函数调用的)。
文件夹结构例如是:
我应该像这样创建 robots.txt:
或使用类似的路线
或者也许使用视图?
谢谢!