问题标签 [search-engine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
760 浏览

search-engine - 是否有包含索引机器人的搜索引擎,可以通过为机器人提供某些属性来组成特殊目录?

我们的应用程序 (C#/.NET) 需要大量查询来搜索。谷歌每天 50,000 的政策是不够的。我们需要能够通过我们设置的特定规则(例如国家域)抓取互联网网站并收集 URL、文本、关键字、网站名称并创建我们自己的内部目录的东西,这样我们就不会局限于任何大型外部搜索引擎像谷歌或雅虎。

我们可以使用任何免费的开源解决方案将其安装在我们的服务器上吗?

重新发明轮子没有意义。

0 投票
7 回答
2249 浏览

c# - 应用程序的内存搜索索引占用太多内存 - 有什么建议吗?

在我们的桌面应用程序中,我们使用倒排索引实现了一个简单的搜索引擎。

不幸的是,我们的一些用户数据集可能会变得非常大,例如在创建倒排索引之前占用了大约 1GB 的内存。倒排索引本身占用了大量内存,几乎与被索引的数据一样多(另外 1GB 的 RAM)。

显然,这会产生内存不足错误的问题,因为每个应用程序 2GB 内存的 32 位 Windows 限制受到影响,或者使用较低规格计算机的用户难以应对内存需求。

我们的倒排索引存储为:

这是在处理每个对象时在数据加载期间创建的,以便将 applicationObject 的键字符串和描述词存储在倒排索引中。

所以,我的问题是:是否可以在空间方面更有效地存储搜索索引?也许需要使用不同的结构或策略?或者是否可以创建一种 CompressedDictionary?由于它存储大量字符串,我希望它具有高度可压缩性。

0 投票
3 回答
3135 浏览

seo - 搜索引擎机器人如何爬取论坛?

如果我有一个包含大量线程的论坛站点,搜索引擎机器人是否会每次都抓取整个站点?假设我的站点中有超过 1,000,000 个线程,每次机器人抓取我的站点时它们都会被抓取吗?或者它是如何工作的?我希望我的网站被索引,但我不希望机器人杀死我的网站!换句话说,我不希望机器人每次抓取我的网站时都一遍又一遍地抓取旧线程。

另外,之前爬过的页面呢?机器人每次爬取我的网站时都会请求它们以确保它们仍在网站上吗?我问这个是因为我只链接到最新线程,即有一个页面包含所有最新线程的列表,但我没有链接到旧线程,它们必须通过 URL 明确请求,例如 http ://example.com/showthread.aspx?threadid=7,这是否可以阻止机器人使我的网站停机并消耗我所有的带宽?

PS 该网站仍在开发中,但我想知道以设计该网站,以免搜索引擎机器人将其关闭。

0 投票
3 回答
2274 浏览

c# - 如何为知识库系统构建搜索引擎?

我需要使用 C# 在我们的知识库系统中构建全文搜索功能。我该如何开始?

0 投票
2 回答
3460 浏览

sharepoint - 如何将动态搜索参数添加到 Sharepoint 搜索?

所以我们的场景是这样的:我们有多个 Sharepoint 站点,这些站点是根据“请求”动态创建的。基本上每个新项目都有一个新站点。现在,对于每个站点,我们要添加一个搜索子句,说明只有元数据标记值等于站点名称的内容才能被找到。快速示例:有 2 个站点/项目:Bear 和 Wolf。Sharepoint Search 已经索引了这些站点中的所有文档/列表/等,并为它们建立了一个公共存档。公共档案中的所有文档都有一个名为“ProjectName”的属性。当 Wolf 团队的 Bill 想要在他的项目站点 (Wolf) 中搜索“规范”时,他只想查看与该项目相关的文档。那么如何确保所有文档的“ProjectName”值都设置为“Wolf”?

我猜我可以在这里使用 Scopes,但目前有大约 200 个站点,而且每个月都在增长,因此手动维护它不是一种选择。如果有一种相对简单的自动化范围的方法;出色的。

0 投票
3 回答
218 浏览

apache - 考虑到 SEO 升级网站

我正在管理一个已建立的网站,该网站目前正在升级(完全重新更换),但我担心我会丢失我所有的 Google 索引(也就是说,Google 的索引中会有很多页面不再存在于那个地方)。

上次我升级(不同的)网站时,有人告诉我我应该做一些事情,以免我的 SEO 受到不利影响。问题是,我不记得那是什么东西了


更新一些澄清:基本上我正在寻找一种将旧路径映射到新路径的方法。例如:

  • 用户搜索“很棒的页面”
  • 谷歌返回mysite.com/old_awesome_page.php,用户点击它。
  • 我的网站将他们带到mysite.com/new_awesome_page.php

当谷歌再次开始抓取该网站时......

  • 谷歌抓取我的网站,刷新现有索引。
  • 要求old_awesome_page.php
  • 我的网站告诉 Google 该页面现已移至new_awesome_page.php.

不会有像那样简单的 1:1 映射,它会更像(old) index.php?page=awesome --> (new) index.php/pages/awesome,所以我不能只用重定向替换现有文件的内容。

我在 Apache 上使用 PHP

0 投票
5 回答
1090 浏览

asp.net - 谷歌(搜索引擎)对 asp.net 页面的索引建议

我正在为我工​​作的大学开发课程传单系统,传单存储在带有主键 course_code 的数据库中。我希望传单理想地被谷歌索引,假设我在 asp.net 2.0 中开发系统,我将如何实现这一点。

我知道将其编入索引的一部分是在我的情况下为 course_code 的链接中传递变量,这显然也允许为课程传单添加书签,这很好。让 googlebot 最好地拖网系统的具体细节是什么。

0 投票
5 回答
4208 浏览

internationalization - 搜索引擎和浏览器接受语言

我正在构建一个门户网站,其中语言内容通常取决于浏览器发送的“接受语言”。因此,相同的 content-URI 将根据不同的用户的浏览器设置为不同的用户提供不同的内容。

我很想知道这将如何影响搜索索引。Google 是否使用所有语言编制索引,是否处理得当?

0 投票
1 回答
247 浏览

web - 如何通知搜索引擎我的网站已关闭一段时间?

我的网站将在接下来的几天内关闭。有没有办法让搜索引擎知道这一点,并且不对网站的声誉和页面排名采取任何措施。

0 投票
5 回答
1936 浏览

http - 搜索引擎是否尊重 HTTP 标头字段“Content-Location”?

我想知道搜索引擎是否尊重HTTP 标头字段Content-Location

这可能很有用,例如,当您想从 URL 中删除会话 ID 参数时:


澄清:
我不想重定向请求,因为删除会话 ID 会导致完全不同的请求,因此也可能导致不同的响应。我只想声明,随附的响应也可以在其“主 URL”下找到。

也许我的例子不能很好地代表我的问题的意图。那么请看一下HTTP头域“Content-Location”的用途是什么?.