0

我有一个HTML需要在 MS Word 中打开的文档。它在每 2-3 页后有带有特定字体/颜色的标题文本(比如说 13.5pt 和颜色代码是#ff11ff),我希望找到标题文本所在的页码。

HTML在 MS Word 环境中检测特定文本的存在时,哪些标签可以派上用场?据我所知,我们可以使用 find 方法检测文本,但我不知道是否有任何方法可以搜索特定的“字体/字体颜色”,

我需要这个来创建一个索引页面,该页面将具有标题的名称和找到它们的页码。所以它是这样的:

  1. 查找特定字体大小的文本。
  2. 获取该页面的当前页码。

更新:似乎我必须迭代 doc 的每个文本并检查它的字体,然后执行类似的操作

Microsoft.Office.Interop.Word._Application word = new Microsoft.Office.Interop.Word.Application();
                Microsoft.Office.Interop.Word._Document document;

                while (word.Selection.Find.Execute(ref findStr, ref objNull, ref objNull, ref objNull, ref objNull, ref objNull, ref objNull, ref objNull, ref objNull, ref objNull, ref objNull, ref objNull, ref objNull, ref objNull, ref objNull))
                {

                    float fontSize = word.Selection.Font.Size;

                    if (fontSize == 13.5)
                    {
                        Range rng = word.Selection.Range;
                        int pageNp = (int)rng.get_Information(WdInformation.wdActiveEndPageNumber);
                    }
                }
4

1 回答 1

1

您可以采取几种不同的方法;好像您忽略 Microsoft Word。jQuery 可以轻松地查明特定的 Html 或样式表标签。

如果您尝试编写一个简单的 C# 应用程序来识别这两个请求。您可以使用正则表达式;它们非常强大,专门设计用于过滤和解析大量数据。

由于您的问题中缺乏信息,我无法进一步指出您,但我希望对您有所帮助。您可以在此处找到有关正则表达式的更多信息:该备忘单应该为您指出几个功能。

我会采取的方法:

  • 如果你必须使用单词;利用一种方法来解析文档。
  • 使用正则表达式方法搜索特定标签。
  • 然后简单地定义方法以返回找到条件的当前页面。

显然,这是一种非常通用的方法。但希望这能为你指明一个好的方向。我不熟悉你的任务或目标;所以这可能会击中头部或不击中钉子。

因此,如果它含糊不清,我深表歉意,但我们不了解您的项目,因此难以回复。如果你不介意我问;你能用你当前的迭代或方法更新你的问题吗?所以我们可以分析代码,也许你想要的目标?

于 2013-01-16T18:47:34.237 回答