我正在处理 2 pdf 比较第一次提取 PDF 以获取 PDF 样式的地方。PDF 样式被提取并转换为 html。然后最后我比较了 2 个 HTML 文本。
对于我使用的 PDF 提取itextsharp
这是代码
this.result.AppendFormat(
"<tr><td>{0}</td><td>{1}</td><td>{2}pt</td><td>{3}</td><td>{4}</td><td>",
Form1.j, curFont, font_size_client, fontweight, fontstyle);
}
this.result.Append(renderInfo.GetText());
}
public string GetResultantText()
{
if (result.Length > 0)
{
result.Append("<tr><td></td><td></td>");
}
return result.ToString();
}
这是我用于转换的代码。我的问题是一个示例 PDF,我使用 HTML 教科书本身来比较文本。在 HTMLbook 中,有一些样式,如背景颜色、字体大小附加到文本中。而不是文字,它采用了风格。你能告诉我如何提取风格吗?是我选择比较 2 PDF 的方法是错误的。或任何其他方法。