问题标签 [code-search-engine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
github - 如果我想实现代码搜索引擎,如何在 Github 中分析项目代码?
嗨伙计们,现在我对挖掘 API 使用模式感到好奇。我遇到了一系列问题。希望能得到你的帮助。
根据我读过的论文,一个程序应该分析许多项目代码以提取程序信息并像搜索引擎一样建立索引。
问题是: 如何在 Github 上编写一个程序来在线分析项目代码?我应该编写一个脚本来下载所有感兴趣的项目然后进行分析吗?或者使用某些 API 下载它们?
非常感谢。
search-engine - 博客网站的搜索引擎(搜索内部链接)
我为我的博客创建了一个非常基本的搜索选项,根据主题和关键词它正在生成结果,但我正在寻找的是在某些文章中我必须添加链接,所以如果我的搜索可以通过那些基本上是外部的链接网站,例如,如果我指的是其他人的博客以获取更多信息,然后搜索从中查找。这可能吗?我不想去GCSE。提前致谢。这将有很大帮助。
再次感谢。
code-search-engine - 在您的代码库中查找被盗代码
我们拥有庞大的代码库,多年来与许多不同的开发人员一起成长。无意中,我们发现了一个明显取自开源项目的代码片段,但没有相应的许可和对来源的引用。
有哪些选项可以找到这样的片段?
我不想将我们所有的代码库上传到网络上的某些服务,也不想手动检查。
将较小的片段上传到某些搜索引擎是可以接受的。有哪些搜索引擎?
什么是最佳实践?
search - 基于语义的代码搜索
我们有大量的存储库。我们希望在这些存储库上实现基于语义(功能)的代码搜索。现在,我们已经实现了基于关键字的代码搜索,其中我们爬取了所有存储库文件并使用 elasticsearch 对其进行索引。但这并不能解决我们的问题,因为一些存储库的注释和记录都很差,因此搜索特定的代码/库变得很困难。
所以我的问题是:在这个领域是否有任何开源库或任何以前的工作可以帮助我们索引存储库文件的语义,以便搜索代码变得容易,这也将有助于我们代码的可重用性. 我发现了一些研究论文,如语义代码浏览、基于语义的代码搜索等,但由于没有给出实际的实现,所以没有用。所以你能推荐一些好的库或项目来帮助我实现同样的目标吗?
PS:-此外,像 Koders、Google、cocycles.com 等公司也开始了基于功能的代码搜索。但是他们中的大多数人在没有给出任何适当反馈的情况下关闭了他们的操作,谁能告诉我他们面临什么样的困难。
tfs - 如何在 TFS 代码搜索中转义搜索字符串
"
真的很喜欢 TFS的“新”代码搜索功能,但我无法猜测如何逃避.
.
我想在我的代码中找到我使用“SOMESTRING”的地方。在我的代码中,但是在搜索这个时,搜索引擎似乎是 strib "
,.
所以我得到了所有SOMESTRING
使用的结果以及那个特定的字符串,它是很多结果。
我试过反斜杠,例如。\"SOMESTRING.\"
但同样的事情也会发生。'strlit:SOMESTRING.' 确保我只在结果中得到字符串文字,但 '.' 仍然被忽略。帮助似乎没有涵盖这一点。
tomcat - 如何跟踪 OpenGrok 服务的使用情况
我们可以通过哪些方式监控 OpenGrok,包括使用情况和特定搜索?是否有任何内置系统或可以作为扩展添加的系统?
我们在 Intranet 上运行 OpenGrok,但我们无法了解它的使用方式和使用量。
安装
目前 OpenGrok 正在通过 puppet 管道安装。
有哪些方法可以监控 OpenGrok,包括使用情况和特定搜索和/或更多?
初步想法:
1)在opengrok前面添加一个代理转发端点来记录“命中”并将其发送到一些数据库存储。这不会跟踪 opengrok 的低级别使用(即搜索查询),只是命中。
2)以某种方式启用tomcat日志并解析日志?我不确定我会从日志中获得多少信息,并且可能会涉及解析。然后将此信息发送到某个数据库存储。
code-search-engine - 如何跟踪 Hound 的使用情况
我们可以通过哪些方式监控 Hound,包括使用情况和特定搜索?是否有任何内置系统或可以作为扩展添加的系统?
我们在 Intranet 上运行 Hound,但我们无法了解它的使用方式和使用量。
目前,猎犬正在通过木偶管道安装。
初步想法:
1)在猎犬前面添加一个代理转发端点来记录“命中”并将其发送到某个数据库存储。这不会跟踪猎犬的低级使用(即搜索查询),只是命中。
2)以某种方式启用服务器日志并解析日志?我不确定我会从日志中获得多少信息,并且可能会涉及解析。然后将此信息发送到某个数据库存储。
html - 如何在 Google 自定义搜索引擎上设置手动过滤器(免费版)
如何在 Google 自定义搜索引擎(而非 CSE 面板)上设置手动过滤器?
例如,要在新选项卡中打开链接,我使用以下代码:
现在我想设置“安全模式”,并设置每页的结果(例如显示 10 个结果)。
更清楚地说,我希望允许用户从我的网站更改这些过滤器,这就是我尝试手动添加它们的原因!谢谢。
web-crawler - 搜索引擎如何唯一标识网络上的每个页面
如果我写了一个链接是“example.com/abc.php”的帖子,并且这个帖子在搜索引擎中排名。
几天后,我更新了这篇文章,包括它的内容以及它到“xyz.php”的永久链接。
因此,现在之前 URL 为“example.com/abc.php”的帖子已更新为“example.com/xyz.php”。
那么搜索引擎将如何知道这是已经与 URL example.com/abc.php 排名相同的页面/帖子。并且需要在不影响排名的情况下将搜索结果中的链接更新为“example.com/xyz.php”。
在创建更新永久链接之前和之后的搜索引擎唯一标识页面的新帖子时,是否需要在代码中编写任何标签或其他内容?
注意:-本网站是通过编码开发的,而不是使用 CMS。使用的语言是 HTML、CSS、JavaScript 和 PHP。
web-scraping - Google 搜索引擎限制为 400 个网站
我想创建我的个人搜索引擎,当我像这样在普通谷歌中输入查询时:site:amazon.com 我只从谷歌得到 400 个网站结果,这似乎是标准限制,这个限制是否可以被打破用谷歌云可编程搜索引擎构建一些东西?谢谢
可编程搜索引擎: https ://developers.google.com/custom-search/docs/overview