2

简要介绍一下背景,我有很多笔记,我在 15 年前以 wpd 格式输入,大约 10 年前,我将它们转换为 rtf 格式,现在我想将它们转换为 html。所有的 php 示例,我都看过使用非常基本的 html。我想这样做的方式将涉及嵌套列表。

http://dl.dropbox.com/u/47490038/ech.rtf

https://dl.dropbox.com/u/47490038/notes/index.html

到目前为止,我已经使用了下面的宏,从 rtf 到 txt,但现在 php 部分超出了我的范围,其中一些可以通过计算每行开头的制表符或空格来完成,请参阅上面的 url所需的输出。我可以稍后添加其他样式。

我愿意接受有关如何执行此操作的建议,即使它是我不熟悉的语言。即使是宏,我也不是很满意,我希望能够选择 word 之外的文件夹或文件,考虑到我有 100 个要转换的宏,甚至可以通过拖放来选择。

            Sub ChangeDocsToTxtOrRTFOrHTML()
            'with export to PDF in Word 2007
                    Dim fs As Object
                    Dim oFolder As Object
                    Dim tFolder As Object
                    Dim oFile As Object
                    Dim strDocName As String
                    Dim intPos As Integer
                    Dim locFolder As String
                    Dim fileType As String
                    On Error Resume Next
                    locFolder = InputBox("Enter the folder path to RTFs", "File Conversion", "C:\myDocs")
                    Select Case Application.Version
                            Case Is < 12
                                    Do
                                            fileType = UCase(InputBox("Change DOC to TXT, RTF, HTML", "File Conversion", "TXT"))
                                    Loop Until (fileType = "TXT" Or fileType = "RTF" Or fileType = "HTML")
                            Case Is >= 12
                                    Do
                                            fileType = UCase(InputBox("Change DOC to TXT, RTF, HTML or PDF(2007+ only)", "File Conversion", "TXT"))
                                    Loop Until (fileType = "TXT" Or fileType = "RTF" Or fileType = "HTML" Or fileType = "PDF")
                    End Select
                    Application.ScreenUpdating = False
                    Set fs = CreateObject("Scripting.FileSystemObject")
                    Set oFolder = fs.GetFolder(locFolder)
                    Set tFolder = fs.CreateFolder(locFolder & "Converted")
                    Set tFolder = fs.GetFolder(locFolder & "Converted")
                    For Each oFile In oFolder.Files
                            Dim d As Document
                            Set d = Application.Documents.Open(oFile.Path)
                            strDocName = ActiveDocument.Name
                            intPos = InStrRev(strDocName, ".")
                            strDocName = Left(strDocName, intPos - 1)
                            ChangeFileOpenDirectory tFolder
                            Select Case fileType
                            Case Is = "TXT"
                                    strDocName = strDocName & ".txt"
                                    ActiveDocument.SaveAs FileName:=strDocName, FileFormat:=wdFormatText
                            Case Is = "RTF"
                                    strDocName = strDocName & ".rtf"
                                    ActiveDocument.SaveAs FileName:=strDocName, FileFormat:=wdFormatRTF
                            Case Is = "HTML"
                                    strDocName = strDocName & ".html"
                                    ActiveDocument.SaveAs FileName:=strDocName, FileFormat:=wdFormatFilteredHTML
                            Case Is = "PDF"
                                    strDocName = strDocName & ".pdf"

                                    ' *** Word 2007 users - remove the apostrophe at the start of the next line ***
                                    'ActiveDocument.ExportAsFixedFormat OutputFileName:=strDocName, ExportFormat:=wdExportFormatPDF

                            End Select
                            d.Close
                            ChangeFileOpenDirectory oFolder
                    Next oFile
                    Application.ScreenUpdating = True
            End Sub

我意识到我问了很多,任何指导、建议、帮助、代码将不胜感激。

4

1 回答 1

1

在我看来,您的源文档在 RTF 中,但它们不使用任何基于 RTF 的嵌套。那正确吗?例如,“2 级”项目符号与“1 级”项目符号的不同不是因为 RTF 中的任何内容,而是因为有人添加了更多空格?

例如查看文件,我看到很多 \par 标记,但没有表示嵌套。所以你有一个 \par\ul 块(例如在“原始教堂”中),然后直接进入 A.1 小节,除了标签和祈祷(可以这么说!)

鉴于此,您不能过分依赖 RTF。我的建议是删除所有 RTF 标记,留下一个布局仅通过使用空格和制表符定义的文档。然后,处理每一行(Perl 对此很有用),并根据空格的数量和前导组合的使用情况来计算,例如是否正在启动一个新列表。并相应地插入标签。

这会很丑陋,但这就是差价的代价。

于 2013-01-31T00:02:47.633 回答