2

我正在使用 txt 或 htm 文件。目前我正在使用for循环逐个字符查找文档,但我需要逐个单词查找文本,然后逐个字符在单词内部查找。我怎样才能做到这一点?

for (int i = 0; i < text.Length; i++)
{}
4

8 回答 8

5

一个简单的方法是使用string.Split不带参数(由空白字符分割):

using (StreamReader sr = new StreamReader(path)) 
{
    while (sr.Peek() >= 0) 
    {
        string line = sr.ReadLine();
        string[] words = line.Split();
        foreach(string word in words)
        {
            foreach(Char c in word)
            {
                // ...
            }
        }
    }
}

我曾经StreamReader.ReadLine读过整行。

要解析 HTML,我会使用像HtmlAgilityPack这样的强大库。

于 2013-03-05T17:09:27.663 回答
2

您可以在空格上拆分字符串,但您必须处理标点符号和 HTML 标记(您说您正在使用 txt 和 htm 文件)。

string[] tokens = text.split(); // default for split() will split on white space
foreach(string tok in tokens)
{
    // process tok string here
}
于 2013-03-05T17:08:16.340 回答
1

这是我对StreamReader. 这个想法不是将整个文件加载到内存中,特别是如果您的文件是一个长行。

public static string ReadWord(this StreamReader stream, Encoding encoding)
{
    string word = "";
    // read single character at a time building a word 
    // until reaching whitespace or (-1)
    while(stream.Read()
       .With(c => { // with each character . . .
            // convert read bytes to char
            var chr = encoding.GetChars(BitConverter.GetBytes(c)).First();

            if (c == -1 || Char.IsWhiteSpace(chr))
                 return -1; //signal end of word
            else
                 word = word + chr; //append the char to our word

            return c;
    }) > -1);  // end while(stream.Read() if char returned is -1
    return word;
}

public static T With<T>(this T obj, Func<T,T> f)
{
    return f(obj);
}

简单地使用:

using (var s = File.OpenText(file))
{
    while(!s.EndOfStream)
        s.ReadWord(Encoding.Default).ToCharArray().DoSomething();
}
于 2014-02-15T01:06:02.447 回答
0

您可以使用HTMLAgilityPack从一些 HTML 中获取所有文本。如果您认为这是矫枉过正,请看这里

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(text);

foreach(HtmlNode node in doc.DocumentNode.SelectNodes("//text()"))
{
    var nodeText = node.InnerText;
}

然后您可以将每个节点的文本内容拆分为单词,一旦您定义了单词是什么。

也许像这样

using HtmlAgilityPack;

static IEnumerable<string> WordsInHtml(string text)
{
    var splitter = new Regex(@"[^\p{L}]*\p{Z}[^\p{L}]*");

    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(text);

    foreach(HtmlNode node in doc.DocumentNode.SelectNodes("//text()"))
    {
        foreach(var word in splitter.Split(node.InnerText)
        {
            yield return word;
        }
    }
}

然后,检查每个单词中的字符

foreach(var word in WordsInHtml(text))
{
    foreach(var c in word)
    {
        // a enumeration by word then char.
    }
}
于 2013-03-05T17:20:01.717 回答
0

用于text.Split(' ')将其按空间拆分为单词数组,然后对其进行迭代。

所以

foreach(String word in text.Split(' '))
   foreach(Char c in word)
      Console.WriteLine(c);
于 2013-03-05T17:07:28.280 回答
0

您可以拆分空格:

string[] words = text.split(' ')

会给你一个单词数组,然后你可以遍历它们。

foreach(string word in words)
{
    word // do something with each word
}
于 2013-03-05T17:07:44.803 回答
0

我认为你可以使用拆分

         var  words = reader.ReadToEnd().Split(' ');

或使用

foreach(String words in text.Split(' '))
   foreach(Char char in words )
于 2013-03-05T17:07:59.817 回答
0

什么是正则表达式?

using System;
using System.Linq;
using System.Text.RegularExpressions;

namespace ConsoleApplication58
{
    class Program
    {
        static void Main()
        {
            string input =
                @"I'm working with a txt or htm file. And currently I'm looking up the document char by char, using for loop, but I need to look up the text word by word, and then inside the word char by char. How can I do this?";
            var list = from Match match in Regex.Matches(input, @"\b\S+\b")
                       select match.Value; //Get IEnumerable of words
            foreach (string s in list) 
                Console.WriteLine(s); //doing something with it
            Console.ReadKey();
        }
    }
}

它适用于任何分隔符,这是最快的方法。

于 2013-03-05T17:39:50.263 回答