我正在编写用户和搜索引擎之间的桥梁,而不是搜索引擎。我的部分附加价值将是推断查询的意图。跟踪号、股票代码或地址的意图相当明显。如果我可以对查询进行分类,那么我可以决定用户是否甚至需要查看搜索结果。当然,如果我不能,那么他们会看到搜索结果。我目前正在设计这个推理引擎。
我正在写一个解析器;它应该接受任何给定的令牌并为其分配一个类别。以下是一些理论英语示例:
- “丹佛”是 USCITY 和 PLACENAME
- "aapl" 是 NASDAQSYMBOL 和 STOCKTICKERSYMBOL
- “555 555 5555”是美国电话号码
我知道这些情况中的每一个很可能都需要特定的处理,但是我不确定从哪里开始。
理想情况下,我最终会得到一些简单的东西,例如:
queryCategory = magicCategoryFinder( query )
>print queryCategory
>"SOMECATEGORY or a list"