我有一个 mht 文件,我希望得到 mht 的所有文本。我坚持使用正则表达式,但我在 mht 中除了英语还有其他语言,所以文本本身包含 A7=A98=D6 之类的东西...
选择在浏览器中查看的文件的所有文本,然后将其复制并粘贴到记事本中 - 这就是我需要的。
谢谢。
Open the file in Internet Explorer and save it as plain text (UTF-8). :) If you need an automated solution, look for an mht to txt converter for your platform or programming language.
Actually, you can automate this in Powershell as well:
$ie = New-Object -ComObject "InternetExplorer.Application"
$ie.Navigate2("file:///C:/MyFile.mht")
$text = $ie.Document.documentElement.innerText