0

有这样的问题。有一个列表是从数据库中获取的,还有一个是在程序期间形成的。表格如下:

id name
One my foo1 foo2 foo3
2 my fow1 foo2 foo3
...

等等。程序运行期间生成的列表从文件中获取数据。并且是:

id name parent
...

问题是数据库中表的列父 ID 号列在哪里。此刻,做出了决定:

int countMatch = 0;
foreach (var productse in prod)
{
    var splitted = productse.name.Replace("  ", " ").Split(' ');
    int maxmatch = splitted.Count(s => addProd.name.Contains(s));

    if (maxmatch > countMatch) countMatch = maxmatch;
}

var fixedCount = addProd.name.Split(' ').Count()/1.5;// 1.5 Choose the most best rate
if (countMatch <= fixedCount && prod.All(x => !x.name.ToUpper().Contains(addProd.name.ToUpper())))
  prod.Add(addProd); 

将该“产品”列表加载到数据库中之后

这个解决方案有效,但不是很好。由于某些名称最适合较小,因此未创建某些记录。

我尝试加载的示例数据:

Intel Core i3-2120 3.3GHz 3Mb 2xDDR3-1333 HDGraphics2000 TDP-65w LGA1155 OEM - name created

以下数据是通过 id parent (Entry above) 获得的:

Intel Core i3-2120 3.3GHz 3Mb 2xDDR3-1333 HDGraphics2000 TDP-65w LGA1155 OEM
Intel Core i3-2120 3.3GHz 3Mb 2xDDR3-1333 HDGraphics2000 TDP-65w LGA1155 BOX w/cooler
Intel Core i3-2130 3.4GHz 3Mb 2xDDR3-1333 HDGraphics2000 TDP-65w LGA1155 OEM
Intel Core i3-3210 3.2GHz 3Mb 2xDDR3-1333 HDGraphics2500 TDP-55w LGA1155 OEM
Intel Core i3-3225 3.3GHz 3Mb 2xDDR3-1333 HDGraphics4000 TDP-55w LGA1155 OEM
Intel Core i3-3225 3.3GHz 3Mb 2xDDR3-1333 HDGraphics4000 TDP-55w LGA1155 BOX w/cooler
Intel Core i3-3240 3.4GHz 3Mb 2xDDR3-1333 HDGraphics2500 TDP-55w LGA1155 OEM
Intel Core i3-3240 3.4GHz 3Mb 2xDDR3-1333 HDGraphics2500 TDP-55w LGA1155 BOX w/cooler
Intel Core i5-2500K 3.3GHz (TB up to 3.7GHz) 6Mb 2xDDR3-1333 HDGraphics3000 TDP-95w LGA1155 OEM
Intel Core i5-3550 3.3GHz (TB up to 3.7GHz) 6Mb 2xDDR3-1333 HDGraphics2500 TDP-77w LGA1155 OEM
Intel Core i5-3550 3.3GHz (TB up to 3.7GHz) 6Mb 2xDDR3-1333 HDGraphics2500 TDP-77w LGA1155 BOX w/cooler

需要将数据放在一个表中,并且如果数据类似于您获得的父级的最大匹配数。谢谢!

4

1 回答 1

0

你能把你应该做什么写得更清楚吗?据我了解,您希望通过识别最常见的符号将文本文件中的行链接到数据库中的行,其中文本的开头是相同的。如果错了,请纠正我。

首先尝试使用正则表达式,这是文本处理中的王者。您可以逐个迭代并删除行文本中带有空格的最后一个单词。

foreach (var fProduct in fileProducts)
{
    // remove blank spaces >= 2
    var fProductCleared = Regex.Replace(fProduct, @"\s{2,}", "");

    // search best match in data base
    bool isMatched = FunctionToMatchInDB(fProductClear); // search the whole text
    if(!isMatched)
    {
        // remove word by word from the end
        while(fProductClear.Contains(' '))
        {
             // remove last word with space from the end of line
             fProductClear = Regex.Replace(fProductClear,@"\s*[^\s]+\s*$", "");
             bool isMatched = FunctionToMatchInDB(fProductClear); 
             if(!isMatched)
                 break; // TODO: 
        }
    }

}
于 2013-04-04T04:57:50.457 回答