我有一个字符串,其中嵌入了 Markdown 标签。我不想将 Markdown 编码为其他任何东西,我只想撕掉所有标签。
我怎样才能快速做到这一点?我需要将其作为处理大约 500 万条文本的批处理作业的一部分,因此速度非常重要。
我查看了 MarkdownSharp,并使用了Transform
,但我不确定这是最好的方法。我只想要纯文本输出,里面没有标签。我什至正在考虑删除正则表达式,但我不确定性能最高的选项是什么。
我有一个字符串,其中嵌入了 Markdown 标签。我不想将 Markdown 编码为其他任何东西,我只想撕掉所有标签。
我怎样才能快速做到这一点?我需要将其作为处理大约 500 万条文本的批处理作业的一部分,因此速度非常重要。
我查看了 MarkdownSharp,并使用了Transform
,但我不确定这是最好的方法。我只想要纯文本输出,里面没有标签。我什至正在考虑删除正则表达式,但我不确定性能最高的选项是什么。
您可能可以使用 MarkdownSharp 或任何其他类似的库(我推荐Strike,因为它速度惊人!)将 Markdown 转换为 Html,然后使用HtmlAgilityPack提取文本。
一个更快的选项,但对您来说更多的工作是修改现有的 Markdown 解析器以生成纯文本。