我有一个 html 文档,在解析后只包含格式化的文本。我想知道是否可以像在新文本文档中通过鼠标选择它 + 复制 + 粘贴一样获取它的文本?
我知道这在 Microsoft.Office.Interop 中是可能的,我有 .ActiveSelection 属性来选择打开的 Word 的内容。
我需要找到一种方法以某种方式加载 html(可能在浏览器对象中),然后复制其所有内容并将其分配给字符串。
var doc = new HtmlAgilityPack.HtmlDocument();
var documetText = File.ReadAllText(myhtmlfile.html, Encoding.GetEncoding(1251));
documetText = this.PerformSomeChangesOverDocument(documetText);
doc.LoadHtml(documetText);
var stringWriter = new StringWriter();
AgilityPackEntities.AgilityPack.ConvertTo(doc.DocumentNode, stringWriter);
stringWriter.Flush();
var titleNode = doc.DocumentNode.SelectNodes("//title");
if (titleNode != null)
{
var titleToBeRemoved = titleNode[0].InnerText;
document.DocumentContent = stringWriter.ToString().Replace(titleToBeRemoved, string.Empty);
}
else
{
document.DocumentContent = stringWriter.ToString();
}
然后我返回文档对象。问题是字符串并不总是像我想要的那样格式化