c# - 从中提取文本
...
标记或直接来自 HTML 文件

Question

我有一个 HTML 页面，其中包含一些我想从网络服务器下载的文件名。我需要阅读这些文件名以创建一个列表，该列表将传递给从服务器下载文件的 Web 应用程序。这些文件名有一些扩展名。

我已经深入研究了这个话题，但除了 -

正则表达式不能用于解析 HTML。
使用HTML 敏捷包

有没有其他方法可以让我从 HTML 文件中搜索具有类似 filename.ext 模式的文本？

包含文件名的示例 HTML -

 <p class=3DMsoNormal style=3D'margin-top:0in;margin-right:0in;margin-bottom=:0in; margin-left:1.5in;margin-bottom:.0001pt;text-indent:-.25in;line-height:normal;mso-list:l1 level3 lfo8;tab-stops:list 1.5in'><![if !supportLists]> <span style=3D'font-family:"Times New Roman","serif";mso-fareast-font-family:"Times New Roman"'><span style=3D'mso-list:Ignore'>1.<span style=3D'font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
    </span></span></span><![endif]><span style=3D'font-family:"Times New Roman","serif"; mso-fareast-font-family:"Times New Roman"'>**13572_PostAccountingReport_2009-06-03.acc**<o:p></o:p></span></p>

我不能使用HTML Agility Pack，因为我不允许下载和使用任何应用程序或工具。

这不能通过任何其他逻辑来实现吗？

这是我到目前为止所做的

string pageSource = "";
            string geturl = @"C:\Documents and Settings\NASD_Download.mht";
            WebRequest getRequest = WebRequest.Create(geturl);
            WebResponse getResponse = getRequest.GetResponse();
            using (StreamReader sr = new StreamReader(getResponse.GetResponseStream()))
            {
                pageSource = sr.ReadToEnd();
                pageSource.Replace("=", "");
            }
           var fileNames = from Match m in Regex.Matches(pageSource, @"[0-9]+_+[A-Za-z]+_+[0-9]+-+[0-9]+-+[0-9]+.+[a-z]")
                          select m.Value;
            foreach (var s in fileNames)
                Response.Write(s);

由于每个文件名中出现一些“=”，我无法获取文件名。如何删除“=”的出现pageSource string

提前致谢

阿基勒

score 0 · Accepted Answer

好吧，知道regex在 HTML 中查找值并不理想：

var files = [];
var p = document.getElementsByTagName('p');

for (var i = 0; i < p.length; i++){
    var match = p[i].innerHTML.match(/\s(\S+\.ext)\s/)

    if (match)
        files.push(match[1]);
}

现场演示

注意：阅读问题的评论。

如果扩展可以是任何东西，你可以使用这个：

var files = [];
var p = document.getElementsByTagName('p');

for (var i = 0; i < p.length; i++){
    var match = p[i].innerHTML.match(/\b(\S+\.\S+)\b/)
    console.log(match)
    if (match)
        files.push(match[1]);
}
document.getElementById('result').innerHTML = files + "";

但这真的真的不靠谱。

现场演示

score 0 · Accepted Answer

好吧，您可以使用正则表达式来提取看起来像文件名的内容。因为，正如您正确指出的那样，正则表达式不解析HTML，您可能会得到误报，即，您可能会得到看起来像文件名但不是的结果。

举个例子：

string html = @"<p class=3DMsoNormal ...etc...";

var fileNames = from Match m in Regex.Matches(html, @"\b[A-Za-z0-9_-]+\.[A-Za-z0-9_-]{3}\b") 
                select m.Value;

foreach (var s in fileNames)
    Console.WriteLine(s);
Console.ReadLine();

这将返回

1.5in
1.5in
7.0pt
13572_PostAccountingReport_2009-06-03.acc

你看，看起来像文件名的 HTML 内容将被返回。当然，您可以改进正则表达式（例如，替换+为{3,}，以便点之前的部分至少需要三个字符），以便过滤掉此示例中的误报。尽管如此，它总是会是一个近似的结果，而不是一个精确的结果。

score 0 · Accepted Answer

使用通用模式获取文件名可能是不可能的，因为1.5in -.25in 7.0pt和喜欢，尝试更具体（如果可能），喜欢
/[a-z0-9_-]+\.[a-z]+/gi或
/>[a-z0-9_-]+\.[a-z]+</gi（包括标记）甚至
/>\d+_PostAccountingReport_\d+-\d+-\d+\.[a-z]+</gi

c# - 从中提取文本...标记或直接来自 HTML 文件

3 回答 3

Related

Reference

c# - 从中提取文本
...
标记或直接来自 HTML 文件