问题标签 [open-search-server]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
245 浏览

search - 抓取 Intranet 凭据问题

我一直在尝试对 Intranet 和 Internet 进行爬网和索引。但它根本不起作用,我认为这是由于代理/安全限制。我将索引解析为true,但内容长度为-1,因此它什么也没爬。无论如何,我是否可以将我拥有的凭据放在 Intranet 上,以便在开放搜索服务器中抓取它,知道它只有基本/摘要或 NTLM 身份验证?

有没有办法在 oss 上配置代理,而不仅仅是在爬虫选项卡中配置代理?我已经设置了凭据,但似乎 oss 无法识别公司的代理,因此它没有给我输入凭据的框。

0 投票
1 回答
1068 浏览

php - 在 Open Search Server 上使用 RESTFul API 时使用构面进行过滤

如何使用 Open Search Server 中的 RESTFul API 过滤搜索结果?

我正在使用以下 URL(搜索字段模板,我的模板名为“搜索”,我将 /search 从 Apache 代理到 Tomcat): http://domain.com:8080/search/services/rest/index/intranet/search/field/search

以下 JSON 有效:

我有一个名为的方面lang,显示价值"en"有 450 个文档。所以,我尝试了这个(基于渲染器功能):

事实证明,字符串中的所有术语都被解析并添加到查询中:

我在 Open Search Server 上1.53

0 投票
1 回答
46 浏览

web-crawler - 使用网络爬虫检索相关的 url

我正在使用 opensearchserver 来抓取网站。现在我想获取特定网址的所有相关网址。这个想法是当有人在网站上阅读文章时,他们会在页面底部获得相关文章选项。如何使用 opensearchserver 做到这一点?这甚至可能吗?如果没有,还有其他网络爬虫可以做这样的事情吗?

谢谢

0 投票
1 回答
470 浏览

json - Opensearchsever -Search range beteen dates- JSON Restful API

我正在尝试在我的一个使用 RestFul JSON API 的应用程序中使用 OpenSearchServer。您能否提供一个示例以使用 restful JSON api 查询两个日期之间的搜索?

以下是我到目前为止的代码

{“查询”:“测试帮助”,“行”:100,“返回字段”:[
“文件名”,“网址”]
}

0 投票
1 回答
330 浏览

web-crawler - 打开搜索服务器设置超时

我在 OpenSearchServer 中使用网络爬虫,在爬取时,它在操作过程中卡住了Extracting url list。完成会话时,它有时也会卡住。无论如何设置时间限制或超时,以便在某些事情运行时间过长时中止?

0 投票
1 回答
88 浏览

regex - OpenSearchServer MSG 解析器

我正在使用 v OpenSearchServer 1.5.13 并尝试设置索引以解析网络共享上的 MSG 文件并使用 MSG Parser。

我将 MSG 参数配置为将 email_display_from、email_display_to 和 creation_date 索引到索引字段 From、To、Date

我基本上是在尝试使用 JSON API 使用电子邮件字段 Date、From 和 To,但看到结果总是空的。

email_display_to 的正则表达式也看起来像\bTo.*\.com\b. 如果设置有误,可以告诉我吗?

使上述索引适用于 MSG 文件的正则表达式是什么?

我希望这些字段显示在默认渲染器视图和 JSON API 结果中。

0 投票
1 回答
129 浏览

faceted-search - 开放式搜索服务器:方面术语限于索引中的文档数量

我在 Linux 机器上使用 Open Search Server。一切都运行良好,除了任何搜索的方面结果的数量似乎仅限于我的索引中的文档数量,这是不正确的。

我正在为用户编制索引,并且用户有标签。我的数据库中目前有 2 个用户,他们被标记了 5 个不同的标签。但是,如果我运行返回两个用户的搜索,则仅返回 2 个不同的标签作为构面(应该有 5 个)。如果我随后将第三个用户添加到我的索引(并且新用户有 0 个标签),我的搜索将返回 3 个标签作为构面。

据我所知,这只是方面的问题。我能够成功过滤 5 个标签中的任何一个,并且可以成功搜索所有 5 个标签的文本。

我的索引:

搜索 ””:

搜索“tag_5”:

有没有人遇到过这个?有建议吗?

编辑:应该提到,多值在方面设置为是。

0 投票
1 回答
235 浏览

indexing - 用于排列查询中所有单词的 opensearchserver 标记器

我需要配置开放搜索服务器来分析查询,以使查询中的任何单词排列都匹配,然后返回文档。

例如,在一个字段的索引中,我有一个短语“膝盖疼痛”。现在,如果我的查询类似于“如何消除人类膝盖的疼痛”。我希望此查询输出在索引字段中具有“膝盖疼痛”的文档。

因此,我要求将查询字符串分解为“移除”、“疼痛”、“人类”、“膝盖”、“移除疼痛”、“移除膝盖”、“移除人类”、“疼痛膝盖”、“人类膝盖” “膝盖疼痛”,“人体疼痛”等。

使其与“膝痛”相匹配。是否有任何标记器或过滤器可以帮助我实现这一目标。

0 投票
1 回答
229 浏览

search - 在 OpenSearchServer 搜索结果中获取缩略图

我需要一个替代谷歌自定义搜索的网站来管理我的网站,它必须能够抓取网站、索引它、允许摆弄优先级,然后允许通过 REST 或类似的东西进行搜索查询并返回 XML 或 JSON 等. 它需要在 Windows Server 实例上运行。

所以,我已经启动并运行http://www.opensearchserver.com/并且它似乎可以解决问题,但是对于我的生活来说,无法弄清楚如何在结果中获取缩略图?我已经搜索了文档并阅读了我能阅读的所有内容,但无法找到如何做到这一点(或者如何理解它)。

我正在抓取标准网页,它们都有缩略图元数据,我假设应该能够以某种方式解析结果并包含在 JSON 结果中?

任何指针都会非常有帮助,谢谢!

0 投票
0 回答
386 浏览

java - 在文件抓取期间打开搜索服务器崩溃

Open Search Server 在爬取文件时崩溃。OSS 在 Ubuntu 机器上作为守护进程运行。这是一个具有 64gb 内存和 12 个内核的生产服务器,在它安装的一个极快的 nas 上爬取文件,大约 20gb 的文件。为 OSS 分配 2GB 内存。应抓取的最大文件约为 1.3gb。有 5 个超过 1gb 的 mp4 文件。

通常在爬取过程中的某个时刻,OSS 会完全没有响应。重启 OSS 即可解决问题。今天我监控了一次爬取,通常一次使用一个或两个核心。当它崩溃时,它正在最大化所有 12 个内核。服务器上的总内存使用量很好,但我不确定 OSS 使用了多少。

我们查看了 oss 日志文件,每次崩溃之前都没有发生一个错误,但是日志中有两个非常常见的错误:

警告:org.apache.cxf.jaxrs.utils.JAXRSUtils - com.jaeksoft.searchlib.webservice.crawler.database.DatabaseImpl#run 和 com.jaeksoft.searchlib.webservice.crawler.database.DatabaseImpl#run 都是处理可能导致不可预知结果的当前请求

警告:root - 内存不足的情况:刷新爬网缓冲区

我们有一个处理所有文件的索引。它基于文件爬虫模板——唯一的变化是:

  1. 使用 4 个正则表达式替换的额外分析器。
  2. 一个额外的字段,用于复制 url 字段并使用来自的分析器
  3. 我们添加了一个磁盘位置,其中包含所有文件。
  4. 我们在查询中加入另一个索引。

当我们能够抓取时,之后查询索引就可以正常工作了。我认为只有在爬网期间索引上有搜索查询时才会发生崩溃,但尚未能够确认。