2

我的目标是构建一个引擎,该引擎采用最新的 HL7 3.0 CDA 文档,并使它们向后兼容 HL7 2.5,这是一个完全不同的野兽。

CDA 文档是一个 XML 文件,当与其匹配的 XSL 文件配对时,它会呈现一个适合显示给最终用户的 HTML 文档。

在 HL7 2.5 中,我需要获取渲染的文本,没有任何标记,并将其折叠成一个文本流(或类似的),我可以用 80 个字符行写出以填充 HL7 2.5 消息。

到目前为止,我正在采用一种方法,即使用 XslCompiledTransform 来使用 XSLT 转换我的 XML 文档并生成一个 HTML 文档。

我的下一步是获取该文档(或者可能在此之前的一步)并将 HTML 呈现为文本。我已经搜索了一段时间,但无法弄清楚如何做到这一点。我希望它很容易被我忽略,或者只是找不到神奇的搜索词。任何人都可以提供一些帮助吗?

FWIW,我已经阅读了 SO 中的 5 或 10 个其他问题,这些问题包含或告诫为此使用 RegEx,并且不认为我想走那条路。我需要渲染的文本。

using System;
using System.IO;
using System.Xml;
using System.Xml.Xsl;
using System.Xml.XPath;

public class TransformXML
{

    public static void Main(string[] args)
    {
        try
        {

            string sourceDoc = "C:\\CDA_Doc.xml";
            string resultDoc = "C:\\Result.html";
            string xsltDoc = "C:\\CDA.xsl";

            XPathDocument myXPathDocument = new XPathDocument(sourceDoc);
            XslCompiledTransform myXslTransform = new XslCompiledTransform();

            XmlTextWriter writer = new XmlTextWriter(resultDoc, null);
            myXslTransform.Load(xsltDoc);

            myXslTransform.Transform(myXPathDocument, null, writer);

            writer.Close();

            StreamReader stream = new StreamReader (resultDoc);

        }

        catch (Exception e)
        {
            Console.WriteLine ("Exception: {0}", e.ToString());
        }
    }
}
4

5 回答 5

3

由于您拥有 XML 源代码,因此请考虑编写一个 XSL,该 XSL 将为您提供所需的输出,而无需中间的 HTML 步骤。这比尝试转换 HTML 要可靠得多。

于 2009-06-26T21:53:03.933 回答
2

这将只留下文本:

class Program
{
    static void Main(string[] args)
    {
        var blah =  new System.IO.StringReader(sourceDoc);
        var reader = System.Xml.XmlReader.Create(blah);
        StringBuilder result = new StringBuilder();

        while (reader.Read())
        {
            result.Append( reader.Value);
        }
        Console.WriteLine(result);
    }

    static string sourceDoc = "<html><body><p>this is a paragraph</p><p>another paragraph</p></body></html>";
}
于 2009-06-26T19:25:26.057 回答
1

或者您可以使用正则表达式:

public static string StripHtml(String htmlText)
{
    // replace all tags with spaces...
   htmlText = Regex.Replace(htmlText, @"<(.|\n)*?>", " ");

   // .. then eliminate all double spaces
   while (htmlText.Contains("  "))
   {
       htmlText = htmlText.Replace("  ", " ");
    }

   // clear out non-breaking spaces and & character code
   htmlText = htmlText.Replace("&nbsp;", " ");
   htmlText = htmlText.Replace("&amp;", "&");

   return htmlText;
}
于 2009-06-26T20:09:15.690 回答
0

这是 XSL:FO 和 FOP 的一个很好的用例。 FOP不仅仅用于 PDF 输出,支持的其他主要输出之一是文本。您应该能够构建一个简单的 xslt + fo 样式表,该样式表具有您想要的规范(即线宽)。

这个解决方案将比 ScottSEA 建议的仅使用 xml->xslt->text 更重一些,但是如果您有任何更复杂的格式要求(例如缩进),它会变得更容易用 fo 表达,而不是模拟在 xslt 中。

我会避免使用正则表达式来提取文本。那太低级了,而且肯定很脆弱。如果您只需要文本和 80 个字符行,默认的 xslt 模板将只打印元素文本。一旦你只有文本,你就可以应用任何必要的文本处理。

顺便说一句,我在一家生产 CDA 作为我们产品的一部分的公司工作(语音识别)。我会研究将 3.0 直接转换为 2.5 的 XSLT。根据您希望在两个版本之间保持的保真度,如果您真正想要实现的是格式之间的转换,那么完整的 XSLT 路径可能是您最容易的选择。这就是 XSLT 的构建目的。

于 2009-06-29T17:09:44.403 回答
0

您可以使用类似这样的东西,它使用 lynx 和 perl 来呈现 html,然后将其转换为纯文本吗?

于 2009-06-26T20:12:46.790 回答