2

我正在处理 2 pdf 比较第一次提取 PDF 以获取 PDF 样式的地方。PDF 样式被提取并转换为 html。然后最后我比较了 2 个 HTML 文本。

对于我使用的 PDF 提取itextsharp

这是代码

  this.result.AppendFormat(
     "<tr><td>{0}</td><td>{1}</td><td>{2}pt</td><td>{3}</td><td>{4}</td><td>", 
    Form1.j, curFont, font_size_client, fontweight, fontstyle);
        }
  this.result.Append(renderInfo.GetText());
        }

  public string GetResultantText()
  {
      if (result.Length > 0)
      {
          result.Append("<tr><td></td><td></td>");
      }
      return result.ToString();
  }

这是我用于转换的代码。我的问题是一个示例 PDF,我使用 HTML 教科书本身来比较文本。在 HTMLbook 中,有一些样式,如背景颜色、字体大小附加到文本中。而不是文字,它采用了风格。你能告诉我如何提取风格吗?是我选择比较 2 PDF 的方法是错误的。或任何其他方法。

4

1 回答 1

0

将其提取为 HTML 后,您可以使用 jQuery 获取 .HTML() 代码。

看看这里:https ://api.jquery.com/html/

之后,您可以比较两个结果。

于 2014-04-28T12:29:07.007 回答