0

对不起,如果标题令人困惑,我不确定我应该如何标记它,我试过了。

我正在编写一个程序来进行一些交叉索引搜索,该程序是使用 Visual Studio 2010 用 C# 编写的。

我有一个包含 3 列的表:CategoryTypeItem。该表是从 Excel 电子表格中读取的,并存储在某种数据结构中(稍后将对此进行解释)。下面是该表的一个简短示例。

| CATEGORY  | TYPE  | ITEM  | <<header row
| categoryA | typeA | itemA | <<first entry
| categoryA | typeB | N/A   |
| categoryA | typeC | itemB |
| categoryA | typeD | N/A   |

我将读取两个用户输入字符串,并且我希望程序确定它们是否匹配。[假设用户输入没有错字,我编写了一个函数来处理这个并规范化两个字符串]

判断两个字符串是否匹配的逻辑是这样的:

1) 如果一个字符串是 a CATEGORY,那么每一个具有相同的TYPE和是匹配的。ITEMCATEGORY

2) 如果字符串是TYPEor ITEM,则只有同一行中的其他数据是匹配的

下面是一些示例,字符串 a 和 b 是两个输入字符串,match 是一个布尔值:

1) a = "categoryA", b = "typeA", match = true
2) a = "categoryA", b = "itemB", match = true
3) a = "typeC", b = "itemB", match = true
4) a = "typeC", b = "itemA", match = false
5) a = "itemA", b = "itemB", match = false

如果这还不够清楚,我会举更多的例子。

所以我的总体问题是:什么是最适合存储 excel 电子表格数据的数据结构,我将如何搜索/比较与此数据结构的匹配?

我虽然使用 a Dictionary<string, string>,所以我可以在字典中搜索字符串 a 并获取匹配字符串列表并进行比较,但是这样我将拥有一个巨大的字典和多个相同的键,这是行不通的。

任何建议/帮助表示赞赏。

4

3 回答 3

2

我会考虑使用命名空间中的DataTableSystem.Data它适用于存储在内存中的表格数据。可能使它对您更具吸引力的是,可以通过DataViewRowFilter属性使用 SQL 之类的查询来查询它。

一些伪代码:

DataTable excelTable = new DataTable(); 

//a method that reads Excel doc and injects data into DataTable
PopulateFromExcel(excelTable); 

DataView dv = new DataView(excelTable); 
dv.RowFilter = "a = 'categoryA' AND b= 'typeA'"; 
var match = dv.Count > 0;
于 2014-01-24T15:46:24.797 回答
1

我有两个建议:一个优化效率,另一个优化内存使用


如果您进行大量查找,最有效的数据结构可能是元组的HashSet。这是一个例子:

var set = new HashSet<Tuple<string, string>>();

set.Add(Tuple.Create("categoryA", "typeA"));
set.Add(Tuple.Create("categoryA", "itemA"));
set.Add(Tuple.Create("typeA", "itemA"));
set.Add(Tuple.Create("categoryA", "typeB"));
set.Add(Tuple.Create("categoryA", "typeC"));
set.Add(Tuple.Create("categoryA", "itemB"));
...

var found1 = set.Contains(Tuple.Create("categoryA", "typeC")); // yields True
var found2 = set.Contains(Tuple.Create("itemA", "itemB"));  // yields False

当您读取数据时,为每一行添加所有可能的组合,这些组合应该对 HashSet 产生 True。它会很大,但查找操作应该几乎是瞬时的。


或者,您可以创建一个MyRow带有 fields的类CategoryType并将Item数据存储在List<MyRow>. 然后,您可以使用 LINQ 查找匹配的记录:

var isMatch = myList.Any(row => (row.Category == string1 && row.Type == string2)
                             || (row.Category == string1 && row.Item == string2)
                             || ...);

这需要最少的内存(因为每个值只存储一次)。但是,每个搜索操作都会遍历完整列表,直到找到匹配项。

于 2014-01-24T15:55:27.803 回答
0

我建议使用 DOCMD.TransferSpreadsheet 方法并导出 excel 数据以访问并执行一些简单的查询以满足您的要求。

于 2014-01-24T15:46:48.497 回答