问题标签 [search-engine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
windows - 如何访问由桌面搜索引擎(如 Windows Search 或 Copernic Desktop Search)生成的文件的关键字
我正在尝试在我部门的公共文件共享上订购文件,其中包含数千个各种文件类型的文档。我的想法是按内容相关的关键字对它们进行排序。只有少数文件包含 Windows 提供的关键字文件属性中的有效信息。我的想法是让一些桌面搜索引擎索引文件(及其内容),然后使用索引中生成的关键字。
问题是我不知道如何从搜索索引中读取这些生成的关键字。
Microsoft 和 Copernic 似乎都没有提供有关如何访问其索引文件的任何信息。MSDN 仅提供有关如何直接从您的程序中查询 Windows 搜索引擎的信息,但结果仅包含 Windows 文件属性和文件信息,而不包含那些生成的用于索引的关键字。哥白尼似乎根本没有提供任何信息。
我非常感谢有关如何访问这些生成的关键字的任何想法。先感谢您!
c# - 现成的现场搜索 asp.net 网站
我开发了一个结合电子商务网站的商业索引。(在asp.net2.0+c#中)
我正在寻找一个已经处理索引、速度和质量等问题的站内搜索引擎。
有没有这样做的著名解决方案?
我需要在我的设计中自定义搜索结果,因此不能选择谷歌搜索引擎。
谢谢, 伊坦
web - 如果搜索引擎蜘蛛正在攻击我的网站,我该怎么办?
我运行了一个小型网络服务器,最近它被搜索引擎蜘蛛所困扰。冷却它的正确方法是什么?我应该定期向它发送 5xx 响应吗?我应该使用 robots.txt 设置吗?或者是其他东西?
apache - Apache Nutch 的性能基准测试
我想知道基于 apache nutch 的搜索引擎部署是否有任何现有的基准和大小信息。我想知道每月进行 1000 万次搜索,需要部署的硬件大小应该是多少。
user-interface - 多语言网站的最佳实践是什么?
我想制作一个多语言网站,以便所有或几乎所有页面都提供 2 种或更多翻译版本。要遵循的最佳实践是什么?
例如,我考虑以下语言选择机制:
- 基于 Cookie 的首选语言选择。
Accept-Language
如果未设置 cookie,则基于标头。- 否则(可能)基于 GeoIP。
还有别的事吗?
应该如何提供不同的翻译?
- 作为
LANG.example.com/page
- 作为
example.com/LANG/page
- 作为
example.com/page?hl=LANG
- ...
- 以上任何一个重定向到
example.com/page
?(好像很气馁)
如何确保所有翻译都被正确索引?
- 包含所有页面 + 正确
Content-Language
标题的站点地图就足够了吗?
让用户知道还有其他翻译但不分散他们注意力的最佳方式是什么?
- 在页眉/页脚/侧边栏中列出可用语言(如维基百科)
- 将“选择语言”选择器放在内容旁边
处理缺失/过时翻译的最佳策略是什么?
- 根本不显示丢失的页面或以不同的语言显示页面?
- 显示旧翻译、带有警告的旧翻译或不同语言的页面?
我还应该考虑什么?我应该做什么,绝对不应该做什么?
php - PHP/mySQL 中的类似 Google 的搜索引擎
我们拥有 OCRed 数千页的报纸文章。每页的报纸、期号、日期、页码和 OCRed 文本都已放入 mySQL 数据库。
我们现在想用 PHP 构建一个类似 Google 的搜索引擎来查找给定查询的页面。它必须很快,任何搜索都不会超过一秒钟。
我们应该怎么做?
search - 推荐一个基于 linux 的站点搜索引擎?
我需要一个站点搜索引擎来搜索我的会员专属内容。我以前使用过流体动力学搜索引擎,但想知道最近是否有任何更新。
需要通过站点抓取而不是文件系统抓取来索引内容,因为所有内容都在数据库中。还需要在 FreeBSD/Linux 下运行。
是的,对不起,不是编程……但这是获得好答案的最佳场所!
content-management-system - 搜索引擎优化 - 开发人员指导?
我刚刚拿到了一份合同,负责整理一个以前的“开发人员”留给我的一个客户的电子商务网站。其中大约有几十个使用自定义购物车和 CMS 系统,这些系统过于嵌入式而无法转储并且运行良好,但迫切需要清理、重构和错误修复,因此是一项相当大量的重新编码工作。
作为其中的一部分,我的客户迫切希望确保他能获得最佳的搜索引擎位置。像许多开发人员一样,我对这个想法有一点点了解,但没有真正的知识,而且加快速度似乎会有所帮助,这样我就可以适当地构建代码。
那么人们可以就有用的优质资源(书籍、网站、博客等)提供建议吗?我不想纠结于这方面的每一个细节(如果他决定把每一盎司都拿出来,他可以聘请专家——尽管我一直认为这比蛇油小贩好不了多少),但我想以有助于而不是阻碍放置的方式构建代码和重新配置模板。
seo - 网址名称在非英语国家/地区的相关性如何?
如果我有一个属于日本公司的商业网站,它将使用片假名或日本汉字(非 ASCII 字符)作为他们希望在 google 中获得良好搜索结果的关键字,那么在网站上放置最接近的英文单词是否仍然重要 DNS 名称?
像:
如果搜索词是片假名的“主页”:ホームページ
DNS 名称会对结果产生影响吗?
更好,它有一个包含“主页”的DNS名称有什么影响吗?
谢谢,瑞克
caching - 如何强制从搜索引擎索引中删除页面?
情况:Google 已将论坛中的页面编入索引。该线程现已删除。我如何/是否可以让谷歌和其他搜索引擎删除缓存的副本?我怀疑他们是否会反对,因为链接页面不再存在,并且保持索引更新和有效应该符合他们的最大利益。
这是可能的还是我必须等待数月才能更新索引?或者页面现在会永远留在那里吗?
我不是相应网站的所有者,因此我无法更改 robots.txt 等示例。我想以“第三方”的身份强制更新。
我还注意到我两天前创建的该资源上的一个新页面已经在缓存中。鉴于此,我可以估计删除此域上的无效页面需要多长时间?
编辑:所以我做了测试。谷歌花了不到 2 个月的时间来删除该页面。很长一段时间...