c# - 如何在整个文件中使用循环从文件中提取字符串文本？

Question

例如我有这个：

“是吗？Wo war ich？Ach ja.<pa>">

我需要创建一个仅包含以下内容的新文本文件：

曾是？我战争吗？啊啊啊啊

我有一个像 43mb 这样的大文件，我需要扫描整个文件，只获取以开头"和结尾的地方，<pa>"并获取这个标签之间的字符串。

到目前为止我做了这个代码：

private void retrivingTestText()
        {
            w = new StreamWriter(retrivedTextFile);
            string startTag = "\"";
            string endTag = "&lt;pa&gt;";
            int startTagWidth = startTag.Length;
            int endTagWidth = endTag.Length;
            string text = "\"Was? Wo war ich? Ach ja.&lt;pa&gt;\">";

            int begin = text.IndexOf(startTag);
            int end = text.IndexOf(endTag, begin + 1);

            string result = text.Substring(begin+1, end-1);
            w.WriteLine(result);
            w.Close();


        }

但现在我需要在一个大文件 43mb xml 文件上制作它。所以在构造函数中我已经做了 StreamReader r; 和字符串 f; 然后我做了：

r = new StreamReader(@"D:\New folder (22)\000004aa.xml")
f = r.ReadToEnd();

现在我需要将它与上面的代码一起使用来提取大文件中 startTag 和 endTag 之间的所有字符串，而不仅仅是特定的文本。

第二件事我需要创建另一个函数，所以在我进行更改后它会知道将所有提取的文本字符串添加回它之前在 startTag 和 endTag 之间的正确位置

谢谢。

score 0 · Accepted Answer

有一篇关于如何使用正则表达式删除 HTML 标记的类似帖子。这是链接。

还有一个你可以调整的，在这里。

score 0 · Accepted Answer

您可以采用以下方法来提取数据。

string word = "\"Was? Wo war ich? Ach ja<pa>\"Jain\"Romil<pa>\"";
string[] stringSeparators = new string[] { "<pa>\"" };
string ans=String.Empty;
string[] text = word.Split(stringSeparators, StringSplitOptions.None);

foreach (string s in text)
{
    if (s.IndexOf("\"") >= 0)
    {
        ans += s.Substring(s.IndexOf("\"")+1);
    }
}
return ans;

c# - 如何在整个文件中使用循环从文件中提取字符串文本？

2 回答 2

Related

Reference