我正在尝试在 Solr 索引中使用不同的“模式”索引多个 CSV 文件。这些 CSV 中可能存在一些常见的架构元素(标题列)。我的要求是能够在这些 CSV 以及其他项目中提供搜索。
- 据我了解,索引的一种方法是将整个 CSV 视为一个巨大的文本字符串并对其进行索引。如果我以这种方式编制索引,我不确定哪些可搜索性方面会受到影响。
- 另一种方法基本上是定义一个通用模式,然后以编程方式逐行从文档和索引中提取列,但需要注意的是,如果文件没有任何通用模式,我可能无法对其进行索引。(顺便说一句,这最后一部分对我来说可能不是首发,但现在让我们尽情享受吧)
还有其他方法吗?一个人比另一个人有什么优势吗?
顺便说一句,我尝试了无模式模式,但它对我不起作用。我可以索引第一个文件,但是当我执行下一个文件并且它有一些不同的列时,它会返回一个错误。这是预期的行为还是我做错了什么?
感谢任何指点,谢谢!
更新:无模式模式的错误是“无效的日期格式”。在做了一些研究之后,这似乎是一个与我想象的不同的问题,因为 Solr 自动检测数据是一个日期,它希望它是 UTC 格式而不是它。我有什么办法可以关闭日期的自动检测吗?