ruby-on-rails - Ruby/Rails：遍历文件夹并将元数据解析为种子数据库

Question

我有一堆文档要在 Rails 应用程序中编制索引。我想使用各种 rake 任务来梳理目录层次结构以查找文件并从这些文件中捕获元数据以在 Rails 中建立索引。

我不确定如何在 Ruby 中执行此操作。我找到了一个名为pdftk的实用程序，它可以从 PDF 文件中提取元数据（我索引的大部分内容是 PDF），但我不确定如何捕获这些数据的各个部分？

例如，抓取 theModDate或 eachBookmarkTitle和BookmarkPageNumberbelow。

具体来说，我想遍历文件层次结构，pdftk $filename dump_data为找到的每个 .pdf 执行命令，然后将该输出的重要部分捕获到 rails 模型中。

pdftk 的输出：

$ pdftk BoringDocument883c2.pdf dump_data
InfoKey: Creator
InfoValue: Adobe Acrobat 9.3.4
InfoKey: Producer
InfoValue: Adobe Acrobat 9.34 Paper Capture Plug-in
InfoKey: ModDate
InfoValue: D:20110312194536-04'00'
InfoKey: CreationDate
InfoValue: D:20110214174733-05'00'
PdfID0: 2f28dcb8474c6849ae8628bc4157df43
PdfID1: 3e13c82c73a9f44bad90eeed137e7a1a
NumberOfPages: 126
BookmarkTitle: Alternative Maintenance Techniques&#13;
BookmarkLevel: 1
BookmarkPageNumber: 3
BookmarkTitle: CONTENTS&#13;
BookmarkLevel: 1
BookmarkPageNumber: 4
BookmarkTitle: EXHIBITS&#13;
BookmarkLevel: 1
BookmarkPageNumber: 6
BookmarkTitle: I - INTRODUCTION&#13;
BookmarkLevel: 1
BookmarkPageNumber: 8
BookmarkTitle: II - EXECUTIVE SUMMARY&#13;
BookmarkLevel: 1
BookmarkPageNumber: 13
BookmarkTitle: III - REMOTE DIAGNOSTICS - A STATUS REPORT&#13;
BookmarkLevel: 1
BookmarkPageNumber: 30
BookmarkTitle: IV - ALTERNATIVE TECHNIQUES&#13;
BookmarkLevel: 1
BookmarkPageNumber: 55
BookmarkTitle: V - COMPANYA - A SERVICE PHILOSOPHY&#13;
BookmarkLevel: 1
BookmarkPageNumber: 66
BookmarkTitle: VI - COMPANYB - REDUNDANT HARDWARE ARCHITECTURE&#13;
BookmarkLevel: 1
BookmarkPageNumber: 77
...shortened for brevity...
PageLabelNewIndex: 1
PageLabelStart: 1
PageLabelPrefix: F-E12_0001.jpg
PageLabelNumStyle: NoNumber
PageLabelNewIndex: 2
PageLabelStart: 1
PageLabelPrefix: F-E12_0002.jpg
PageLabelNumStyle: NoNumber
PageLabelNewIndex: 3
PageLabelStart: 1
PageLabelPrefix: F-E12_0003.jpg
PageLabelNumStyle: NoNumber
...

编辑：我最近发现了pdf-reader gem，它看起来很有希望，并且可以避免在 shell 中以某种方式触发的需要pdftk？！？

score 1 · Accepted Answer

首先，我说我对Rake的了解不是很好，所以可能会有一些错误。让我知道是否有问题，我很乐意尝试解决问题。

为了解决这个问题，我将使用 2 个 rake 任务。其中一个 rake 任务将是递归目录遍历任务，另一个将是启动递归的任务。

desc "Populate the database with PDF metadata from the default PDF path"
task :populate_all_pdf_metadata do
  pdf_path = "/path/to/pdfs"

  Rake::Task[:populate_pdf_metadata].invoke(pdf_path)
end

desc "Recursively traverse a path looking for PDF metadata"
task :populate_pdf_metadata, :pdf_path do |t, args|
  excluded_dir_names = [".", ".."] # Do not look in dirs with these names.

  pdf_path = args[:pdf_path]

  Dir.entries(pdf_path).each do |file|
    if Dir.directory?(file) && !excluded_dir_names.include?(file)
      Rake::Task[:populate_pdf_metadata].invoke(pdf_path + "/" + file)
    elsif File.extname(file) == ".pdf"
      reader = PDF::Reader.new(file)

      # Populate the database here
    end
  end
end

我相信上面的代码与您想要做的类似。为了访问数据库，您需要将:environment依赖项添加到您的任务中。您可以在 Google 上搜索如何从 rake 任务中访问 ActiveRecord 模型。我希望这有帮助。

ruby-on-rails - Ruby/Rails：遍历文件夹并将元数据解析为种子数据库

1 回答 1

Related

Reference