0

抓取路径\to\file_folder 时出错:java.net.ConnectException:连接超时:连接

我正在尝试使用 FSCrawler 将远程服务器文件摄取到 Elasticserach 的现有索引中(位于我的本地计算机上),但出现异常。

下面是 FSCrawler 的 _settings.yml 文件:

 ---
    name: "index_in_es_onefsc"
    server:
      hostname: "machinename.abc.com"
      port: 22
      username: "username"
      password: "password@20"
      protocol: "ssh"
    fs:
      url: "E:\\TestFilesToBeIndexed"
      update_rate: "15m"
      excludes:
      - "*/~*"
      json_support: false
      filename_as_id: false
      add_filesize: true
      remove_deleted: true
      add_as_inner_object: false
      store_source: false
      index_content: true
      attributes_support: false
      raw_metadata: false
      xml_support: false
      index_folders: true
      lang_detect: false
      continue_on_error: false
      ocr:
        language: "eng"
        enabled: true
        pdf_strategy: "ocr_and_text"
      follow_symlinks: false
    elasticsearch:
      nodes:
      - url: "http://127.0.0.1:9200"
      bulk_size: 100
      flush_interval: "5s"
      byte_size: "10mb"
4

1 回答 1

0

文档说,在 Windows 上,在 Windows 机器上进行 SSH 访问时,您必须使用以下形式:

我认为在 Windows 上,您需要使用:

name: "index_in_es_onefsc"
fs:
  url: "/E:/TestFilesToBeIndexed"
server:
  hostname: "machinename.abc.com"
  port: 22
  username: "username"
  password: "password@20"
  protocol: "ssh"

请注意,从 Windows 计算机运行 FSCrawler 时存在一个已知问题。此问题已修复,但如果您使用的 SNAPSHOT 版本比 6 月 26 日发布的版本旧,您很可能需要升级。

于 2020-06-10T15:12:21.300 回答