c# - 查找字符串数组的哪个单元格包含文本的最佳方法

Question

我有一段从 Gedcom（此处和此处）文件中获取的文本

文字扁平化，基本分成“节点”

我在 \r char 上拆分每个节点，从而将其细分为每个部分（“行”的数量可能会有所不同）

我知道 0 地址将始终是 ID，但之后一切都可以在任何地方，所以我想测试数组的每个单元格，看看它是否包含正确的标签供我处理

两个节点的外观示例



0 @ind23815@ INDI <<<<<<<<<<<<<<<<<<< Start of node 1
1 NAME Lawrence /Hucstepe/
2 DISPLAY Lawrence Hucstepe
2 GIVN Lawrence
2 SURN Hucstepe
1 POSITION -850,-210
2 BOUNDARY_RECT (-887,-177),(-813,-257)
1 SEX M
1 BIRT 
2 DATE 1521
1 DEAT Y
2 DATE 1559
1 NOTE     * Born: Abt 1521, Kent, England
2 CONT     * Marriage: Jane Pope 17 Aug 1546, Kent, England
2 CONT     * Died: Bef 1559, Kent, England
2 CONT 
1 FAMS @fam08318@
0 @ind23816@ INDI  <<<<<<<<<<<<<<<<<<<<<<< Start of Node 2
1 NAME Jane /Pope/
2 DISPLAY Jane Pope
2 GIVN Jane
2 SURN Pope
1 POSITION -750,-210
2 BOUNDARY_RECT (-787,-177),(-713,-257)
1 SEX F
1 BIRT 
2 DATE 1525
1 DEAT Y
2 DATE 1609
1 NOTE     * Born: Abt 1525, Tenterden, Kent, England
2 CONT     * Marriage: Lawrence Hucstepe 17 Aug 1546, Kent, England
2 CONT     * Died: 23 Oct 1609
2 CONT 
1 FAMS @fam08318@
0 @ind23817@ INDI  <<<<<<<<<<< start of Node 3


所以当我完成后，我有一个看起来像的数组

address , string
0 = "1 NAME Lawrence /Hucstepe/"
1 = "2 DISPLAY Lawrence Hucstepe"
2 = "2 GIVN Lawrence"
3 = "2 SURN Hucstepe"
4 = "1 POSITION -850,-210"
5 = "2 BOUNDARY_RECT (-887,-177),(-813,-257)"
6 = "1 SEX M"
7 = "1 BIRT "
8 = "1 FAMS @fam08318@"


所以我的问题是搜索上述数组以查看哪个 Cell 具有 SEX 标签或 NAME 标签或 FAMS 标签的最佳方法是什么

这是我的代码

private int FindIndexinArray(string[] Arr, string search)
{
    int Val = -1;
    for (int i = 0; i < Arr.Length; i++)
    {
        if (Arr[i].Contains(search))
        {
            Val = i;
        }
    }
    return Val;
}


但这似乎效率低下，因为我最终调用它两次以确保它不会返回 -1

像这样

            if (FindIndexinArray(SubNode, "1 BIRT ") != -1)
            {
                // add birthday to Struct 
                I.BirthDay = SubNode[FindIndexinArray(SubNode, "1 BIRT ") + 1].Replace("2 DATE ", "").Trim();
            }

对不起，这是一个较长的帖子，但希望你们能得到一些专家建议

score 3 · Accepted Answer

一个简单的正则表达式呢？

^(\d)\s=\s\"\d\s(SEX|BIRT|FAMS){1}.*$

第一组捕获地址，第二组捕获标签。

此外，将所有数组项转储到一个字符串中并一次对整个批次执行正则表达式可能会更快。

score 3 · Accepted Answer

可以使用 Array 类的静态方法 FindAll：如果可行，它将返回字符串本身。

string[] test = { "Sex", "Love", "Rock and Roll", "Drugs", "Computer"};
Array.FindAll(test, item => item.Contains("Sex") || item.Contains("Drugs") || item.Contains("Computer"));

=> 表示 lamda 表达式。基本上是一种没有具体实现的方法。如果 lamda 让你毛骨悚然，你也可以这样做。

//Declare a method 

     private bool HasTag(string s)
     {
         return s.Contains("Sex") || s.Contains("Drugs") || s.Contains("Computer");
     }

     string[] test = { "Sex", "Love", "Rock and Roll", "Drugs", "Computer"};
     Array.FindAll(test, HasTag);

score 0 · Accepted Answer

“但它似乎效率低下，因为我最终调用它两次以确保它不会返回 -1”

在测试之前将返回的值复制到变量中以防止多次调用。

IndexResults = FindIndexinArray(SubNode, "1 BIRT ")
if (IndexResults != -1)
        {
            // add birthday to Struct 
            I.BirthDay = SubNode[IndexResults].Replace("2 DATE ", "").Trim();
        }

score 0 · Accepted Answer

如果您只对第一个匹配项感兴趣，则 FindIndexinArray shd 方法中的 for 循环会在您找到匹配项后中断。

c# - 查找字符串数组的哪个单元格包含文本的最佳方法

4 回答 4

Related

Reference