我目前正在开发用于搜索功能的索引器。索引器将处理来自“字段”的数据。字段看起来像:
Field_id Field_type Field_name Field_Data
- 101 text Name Intel i7
- 102 integer Cores 4 physical, 4 virtual
- 103 select Vendor Intel
- 104 multitext Description The i7 is intel's next gen range of cpus.
索引器将生成以下结果/索引:
Keyword Occurrences
- intel 101, 103, 104
- i7 101, 104
- physical 102
- virtual 102
- next 104
- gen 104
- range 104
- cpus 104 (*)
- cpu 104 (*)
所以看起来一切都很好,但是,我想解决一些问题:
- 过滤掉常用词(您可能注意到,列表中缺少“the”、“is”、“of”和“intel's”)
- 关于“cpus”(复数与单数),最好同时使用特定类型(单数或复数)还是精确(即“cpus”与“cpu”不同)?
- 继续上一项,我如何确定复数(不同的口味:测试=>测试鱼=>鱼和叶子=>叶子)
- 我目前正在使用 MySql,我非常关心性能问题;我们有 500 多个类别,我们甚至没有启动该网站
- 假设我想使用搜索词“vendor:intel”,其中vendor指定字段名称(field_name),您认为对sql server会产生巨大影响吗?
- 搜索限制;我根本不喜欢这个,但这是有可能的,如果您知道任何解决方法,请让自己听到!
- 还有其他问题我可能忘记了,如果你发现任何问题,欢迎你对我大喊大叫;-)
- 我不需要搜索引擎抓取链接,其实我特别希望它不抓取链接。
(顺便说一句,我并不偏向于英特尔,只是碰巧我拥有一台基于 i7 的电脑 ;-))