问题标签 [search-engine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
775 浏览

windows - 如何访问由桌面搜索引擎(如 Windows Search 或 Copernic Desktop Search)生成的文件的关键字

我正在尝试在我部门的公共文件共享上订购文件,其中包含数千个各种文件类型的文档。我的想法是按内容相关的关键字对它们进行排序。只有少数文件包含 Windows 提供的关键字文件属性中的有效信息。我的想法是让一些桌面搜索引擎索引文件(及其内容),然后使用索引中生成的关键字。

问题是我不知道如何从搜索索引中读取这些生成的关键字。

Microsoft 和 Copernic 似乎都没有提供有关如何访问其索引文件的任何信息。MSDN 仅提供有关如何直接从您的程序中查询 Windows 搜索引擎的信息,但结果仅包含 Windows 文件属性和文件信息,而不包含那些生成的用于索引的关键字。哥白尼似乎根本没有提供任何信息。

我非常感谢有关如何访问这些生成的关键字的任何想法。先感谢您!

0 投票
4 回答
741 浏览

c# - 现成的现场搜索 asp.net 网站

我开发了一个结合电子商务网站的商业索引。(在asp.net2.0+c#中)

我正在寻找一个已经处理索引、速度和质量等问题的站内搜索引擎。

有没有这样做的著名解决方案?

我需要在我的设计中自定义搜索结果,因此不能选择谷歌搜索引擎。

谢谢, 伊坦

0 投票
6 回答
387 浏览

web - 如果搜索引擎蜘蛛正在攻击我的网站,我该怎么办?

我运行了一个小型网络服务器,最近它被搜索引擎蜘蛛所困扰。冷却它的正确方法是什么?我应该定期向它发送 5xx 响应吗?我应该使用 robots.txt 设置吗?或者是其他东西?

0 投票
1 回答
1056 浏览

apache - Apache Nutch 的性能基准测试

我想知道基于 apache nutch 的搜索引擎部署是否有任何现有的基准和大小信息。我想知道每月进行 1000 万次搜索,需要部署的硬件大小应该是多少。

0 投票
3 回答
3886 浏览

user-interface - 多语言网站的最佳实践是什么?

我想制作一个多语言网站,以便所有或几乎所有页面都提供 2 种或更多翻译版本。要遵循的最佳实践是什么?

例如,我考虑以下语言选择机制:

  1. 基于 Cookie 的首选语言选择。
  2. Accept-Language如果未设置 cookie,则基于标头。
  3. 否则(可能)基于 GeoIP。

还有别的事吗?

应该如何提供不同的翻译?

  1. 作为LANG.example.com/page
  2. 作为example.com/LANG/page
  3. 作为example.com/page?hl=LANG
  4. ...
  5. 以上任何一个重定向到example.com/page?(好像很气馁

如何确保所有翻译都被正确索引?

  1. 包含所有页面 + 正确Content-Language标题的站点地图就足够了吗?

让用户知道还有其他翻译但不分散他们注意力的最佳方式是什么?

  1. 在页眉/页脚/侧边栏中列出可用语言(如维基百科)
  2. 将“选择语言”选择器放在内容旁边

处理缺失/过时翻译的最佳策略是什么?

  1. 根本不显示丢失的页面或以不同的语言显示页面?
  2. 显示旧翻译、带有警告的旧翻译或不同语言的页面?

我还应该考虑什么?我应该做什么,绝对不应该做什么?

0 投票
9 回答
45989 浏览

php - PHP/mySQL 中的类似 Google 的搜索引擎

我们拥有 OCRed 数千页的报纸文章。每页的报纸、期号、日期、页码和 OCRed 文本都已放入 mySQL 数据库。

我们现在想用 PHP 构建一个类似 Google 的搜索引擎来查找给定查询的页面。它必须很快,任何搜索都不会超过一秒钟。

我们应该怎么做?

0 投票
3 回答
1896 浏览

search - 推荐一个基于 linux 的站点搜索引擎?

我需要一个站点搜索引擎来搜索我的会员专属内容。我以前使用过流体动力学搜索引擎,但想知道最近是否有任何更新。

需要通过站点抓取而不是文件系统抓取来索引内容,因为所有内容都在数据库中。还需要在 FreeBSD/Linux 下运行。

是的,对不起,不是编程……但这是获得好答案的最佳场所!

0 投票
3 回答
445 浏览

content-management-system - 搜索引擎优化 - 开发人员指导?

我刚刚拿到了一份合同,负责整理一个以前的“开发人员”留给我的一个客户的电子商务网站。其中大约有几十个使用自定义购物车和 CMS 系统,这些系统过于嵌入式而无法转储并且运行良好,但迫切需要清理、重构和错误修复,因此是一项相当大量的重新编码工作。

作为其中的一部分,我的客户迫切希望确保他能获得最佳的搜索引擎位置。像许多开发人员一样,我对这个想法有一点点了解,但没有真正的知识,而且加快速度似乎会有所帮助,这样我就可以适当地构建代码。

那么人们可以就有用的优质资源(书籍、网站、博客等)提供建议吗?我不想纠结于这方面的每一个细节(如果他决定把每一盎司都拿出来,他可以聘请专家——尽管我一直认为这比蛇油小贩好不了多少),但我想以有助于而不是阻碍放置的方式构建代码和重新配置模板。

0 投票
2 回答
391 浏览

seo - 网址名称在非英语国家/地区的相关性如何?

如果我有一个属于日本公司的商业网站,它将使用片假名或日本汉字(非 ASCII 字符)作为他们希望在 google 中获得良好搜索结果的关键字,那么在网站上放置最接近的英文单词是否仍然重要 DNS 名称?

像:

如果搜索词是片假名的“主页”:ホームページ

DNS 名称会对结果产生影响吗?

更好,它有一个包含“主页”的DNS名称有什么影响吗?

谢谢,瑞克

0 投票
4 回答
613 浏览

caching - 如何强制从搜索引擎索引中删除页面?

情况:Google 已将论坛中的页面编入索引。该线程现已删除。我如何/是否可以让谷歌和其他搜索引擎删除缓存的副本?我怀疑他们是否会反对,因为链接页面不再存在,并且保持索引更新和有效应该符合他们的最大利益。

这是可能的还是我必须等待数月才能更新索引?或者页面现在会永远留在那里吗?

我不是相应网站的所有者,因此我无法更改 robots.txt 等示例。我想以“第三方”的身份强制更新。

我还注意到我两天前创建的该资源上的一个新页面已经在缓存中。鉴于此,我可以估计删除此域上的无效页面需要多长时间?

编辑:所以我做了测试。谷歌花了不到 2 个月的时间来删除该页面。很长一段时间...