我想使用任何免费提供的 pdf 库(如 PDFSharp、ItextSharp)将 pdf 导出为带有字体信息(如字体大小、字体名称、字体样式、字间距、字母间距等)的 xml。
例如:
<p font-style="10pt", font-style="italic" letter-spacing="somevalue" word-spacing="somevalue">段落文本放在这里</p>
可以使用 C# 吗?如果可能,我在哪里可以获得相关信息?
我想使用任何免费提供的 pdf 库(如 PDFSharp、ItextSharp)将 pdf 导出为带有字体信息(如字体大小、字体名称、字体样式、字间距、字母间距等)的 xml。
例如:
<p font-style="10pt", font-style="italic" letter-spacing="somevalue" word-spacing="somevalue">段落文本放在这里</p>
可以使用 C# 吗?如果可能,我在哪里可以获得相关信息?
开源项目 PDF Clown 可能会对您有所帮助。以下是其功能页面的 url,其中包括带有格式信息的文本导入。然后您可以将其转换为 XElement 、 XAttribute 等和/或最终将 XMLSerialize 转换为 xml 文档。
http://www.stefanochizzolini.it/en/projects/clown/features.html
sourcefourge 下载如下: