我正在编写一个实用程序来按计划将印象笔记笔记导出到 Outlook 中。Outlook API 需要纯文本,Evernote 输出纯文本笔记的 XHTML 文档版本。我需要的是去掉所有标签,并取消嵌入在 Evernote 导出文件中的源 XHTML 文档。
基本上我需要转;
<note>
<title>Test Sync Note 1</title>
<content>
<![CDATA[ <?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE en-note SYSTEM "http://xml.evernote.com/pub/enml.dtd">
<en-note bgcolor="#FFFFFF">
<div>Test Sync Note 1</div>
<div>This i has some text in it</div>
<div> </div>
<div> </div>
<div>and a second line</div>
</en-note>
]]>
</content>
<created>20081028T045727Z</created>
<updated>20081028T051346Z</updated>
<tag>Test</tag>
</note>
进入
测试同步注 1 这个我有一些文字 和第二行
我可以轻松地解析出 CDATA 部分并仅获取 4 行文本,但我需要一种可靠的方法来剥离 div、取消转义并处理可能潜入其中的任何额外 HTML。
我假设有一些 MS API 组合可以完成这项工作,但我不知道。