0

我正在为我正在实现的两个功能寻找新的想法。

1.) 文本分割功能:

Ex: 
                    User Query:                 Resolved Query:
                    -----------                 ---------------
            It has lotsofwordstogether   It has lots of words together

    I am using normal recursion or DP solution using unigrams probability.

2.) 搭配类型:

Ex:
        User Query:                       Resolved Query:
        ----------                      ---------------
    I like t shirts in Wal mart       I like t-shirts in Walmart

不知道该怎么做。我目前唯一的想法是将句子标记化并将无意义的标记与先前的标记或下一个标记组合以形成可以根据一元组进行检查的单词。

这些解决方案对我的要求来说很慢(尤其是第一个)。我想一起使用这些功能。寻找更好的想法。

4

2 回答 2

0

我猜标准方法涉及字母 n-gram。

所以“wal mart”会变成“wal”“alm”“lma”“mar”“art”。

于 2017-02-07T20:34:22.627 回答
0

对于问题 1),查找单词边界,您可以使用现有算法对东亚语言进行标记。它们通常涉及应用隐马尔可夫模型:

http://dev.datasift.com/blog/using-japanese-tokenization-generate-more-accurate-insight

https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html

我还可以考虑应用 CKY 算法(用于解析上下文无关语法),特别是如果您可以找到提供音节分割的字典和音节清单。

我认为问题 2) 只是拼写更正的一个例子。就像对待任何其他角色一样对待空格。

我会发布更多链接,但我没有足够的声誉。

这些都不是简单的问题,祝你好运!

于 2017-05-26T08:58:15.797 回答