问题标签 [search-engine-bots]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search-engine - 如何帮助搜索引擎机器人索引地理定位结果?
我的一个网站有几个公共页面,这些页面根据用户搜索的位置提供结果。类似于访问天气网站并能够搜索您当地的天气。但是,为此,更多的是关于该附近的事件和其他一些结果类型。
通过查看一些索引报告,这些结果似乎要么被完全忽略,要么仅从机器人报告的位置索引一个。
我可以/应该在网站上或 robots.txt 文件中做些什么来帮助解决这个问题吗?
我曾考虑尝试检测机器人,然后让它返回所有结果,但我担心时间。每个结果都有自己的页面,但我们使用 GUID 作为 Id,所以我想不出一种方法让它只索引直接页面?链接到列表中所有结果的单独页面会有所帮助吗?
谢谢,尝试谷歌搜索并询问朋友,但一无所获。
python - 在 Python 中使用 Selenium 从“结果页面”中提取结果
不幸的是,我的 Python 程序的实现有一点问题。在某一时刻,我无法再进一步了。该程序应执行以下操作:
- 在搜索引擎“www.startpage.com”上执行特定关键字的自动搜索。
- 然后应该读出带有结果的页面(这就是问题所在)。
- 该程序现在应该计算某个单词在搜索结果页面上出现的频率。
这里的问题是我无法从搜索结果页面获取源代码。我只得到起始页的源代码有人知道解决方案吗?
提前致谢。
到目前为止,我的程序如下所示:
javascript - JSON状态请求AJAX SEO是否友好
我在一个网站上实现了一个功能,简而言之如下:
页面访问超过 3 次后应该有一个弹出对话框。弹出窗口是一个简单的对话框,其中一个按钮实际上是锚(链接)。所有内容(HTML Javascrpt、CSS)都可以从浏览器的开发视图中看到,它是服务器站点呈现的。只有一个特定的:如果 AJAX 请求收到 '{status: "show"}'(json) 响应,则会显示弹出窗口,然后通过 CSS(display) 向用户显示对话框。有人问我这个实现是否对 SEO(机器人、爬虫)友好。
我一直在互联网上阅读这些蜘蛛/爬虫是如何工作的——通常我了解到的是它们在 HTML 中找到链接/锚标记并跟随它们,从而遍历链接树。所以AJAX请求可能有问题。虽然我读到谷歌蜘蛛可以跟踪 ajax 链接并触发 ajax 请求。
不幸的是,我无法弄清楚 - 这种类型的实施是否会破坏网站的 SEO?我的意思是网站页面上的所有链接仍然存在 - 对机器人可见。通过 AJAX 调用仅获取 JSON 数据 - 仅更改 CSS 以显示/隐藏元素。
javascript - 如何将 JavaScript 动态数据转换为 HTML 并渲染?
我们开发了一个网站,它使用 JavaScript 库来查询数据库并在 HTML 页面中显示数据。当您访问该网站时,您需要搜索某些内容以检索数据。所以默认情况下网站不显示任何数据,它需要用户执行操作。
搜索结果数据在 HTML 视图源中不可见,因为它使用 JavaScript。
因此,搜索引擎无法了解我们网站的用途和用于重定向更多访问者的数据。
其次,我想知道搜索机器人/引擎如何抓取具有非静态内容的网站,并对网站有足够的了解以重定向用户。
web-crawler - 搜索引擎如何唯一标识网络上的每个页面
如果我写了一个链接是“example.com/abc.php”的帖子,并且这个帖子在搜索引擎中排名。
几天后,我更新了这篇文章,包括它的内容以及它到“xyz.php”的永久链接。
因此,现在之前 URL 为“example.com/abc.php”的帖子已更新为“example.com/xyz.php”。
那么搜索引擎将如何知道这是已经与 URL example.com/abc.php 排名相同的页面/帖子。并且需要在不影响排名的情况下将搜索结果中的链接更新为“example.com/xyz.php”。
在创建更新永久链接之前和之后的搜索引擎唯一标识页面的新帖子时,是否需要在代码中编写任何标签或其他内容?
注意:-本网站是通过编码开发的,而不是使用 CMS。使用的语言是 HTML、CSS、JavaScript 和 PHP。
search-engine - 是否有从我的数据库中获取数据的搜索引擎 API
我只是想知道是否有可以集成到我的系统(存储库系统)中的可编程搜索引擎 API。我有这个项目,我的顾问希望我创建一个搜索引擎,该引擎将显示来自我创建的数据库的搜索关键字。非常感谢任何答案。谢谢你。
google-crawlers - 爬虫阻塞
我最近写了一个爬虫,但看到我的 ip 由于高流量而被阻止。我想知道像 Bing、Google 这样的搜索引擎如何如此频繁地抓取网站。
他们如何“摆脱”它?它是否也基于网站所有者对他/她想要被抓取的内容的偏好?