我要将 Lotus Notes 数据库的内容迁移到 SharePoint。整个数据库导出为 XML 文件(此要求无法更改),我必须解析这些 XML 文件并将数据插入 SharePoint。
让我失望的是包含富文本的元素。XML 元素包含在 Lotus Notes 中使用 DXL 的字段中使用的确切富文本格式的 XML 表示,如http://publib.boulder.ibm.com/infocenter/domhelp/v8r0/index.jsp?topic=%中所述2Fcom.ibm.designer.domino.main.doc%2FH_PARAGRAPH_DEFINITIONS_ELEMENT_XML.html
我不需要保留文本的实际格式(除非这与检索纯文本同样容易),但如果我只是提取包含富文本的 XML 元素的值(使用 LinqToXML),我会得到纯文本没有不可接受的换行符。此外,嵌入的图像在检索到的文本中显示为 base64 编码的字符串(它们嵌入在 XML 中)。
谁能指导我如何从 XML 元素中提取文本,或者作为可以插入到 RTF 文件中的正确 RTF 格式,或者作为包含正确换行符且不包含嵌入图像的纯文本?