2

我正在尝试通过 Ruby on Rails 应用程序中的网页导入 XML 文件,代码 ruby​​ 视图代码如下(我已删除 HTML 布局标签以使阅读代码更容易)

<% form_for( :fmfile, :url => '/fmfiles', :html => { :method => :post, :name => 'Form_Import_DDR', :enctype => 'multipart/form-data' } ) do |f| %>
<%= f.file_field :document, :accept => 'text/xml', :name => 'fmfile_document' %>
<%= submit_tag 'Import DDR' %>
<% end %>

生成以下 HTML 表单

<form action="/fmfiles" enctype="multipart/form-data" method="post" name="Form_Import_DDR"><div style="margin:0;padding:0"><input name="authenticity_token" type="hidden" value="3da97372885564a4587774e7e31aaf77119aec62" />
<input accept="text/xml" id="fmfile_document" name="fmfile_document" size="30" type="file" />
<input name="commit" type="submit" value="Import DDR" />
</form>

'fmfiles_controller' 中的 Form_Import_DDR 方法是使用 REXML 读取 XML 文档的繁重工作的代码。代码如下

@fmfile = Fmfile.new
@fmfile.user_id = current_user.id
@fmfile.file_group_id = 1
@fmfile.name = params[:fmfile_document].original_filename

respond_to do |format|
  if @fmfile.save
    require 'rexml/document'
    doc = REXML::Document.new(params[:fmfile_document].read)

    doc.root.elements['File'].elements['BaseTableCatalog'].each_element('BaseTable') do |n|
      @base_table = BaseTable.new
      @base_table.base_table_create(@fmfile.user_id, @fmfile.id, n)
    end

它继续读取所有不同的 XML 元素。

我在 Mac OS X 10.5.4 的开发环境中使用 Rails 2.1.0 和 Mongrel 1.1.5,站点数据库和浏览器在同一台机器上。

我的问题是这个。当读取字符编码为 UTF-8 的 XML 文档时,整个过程工作正常,但当 XML 文件为 UTF-16 时失败,有谁知道为什么会发生这种情况以及如何停止?

我在下面包含了来自调试器控制台的错误输出,大约需要 5 分钟才能获得此输出,并且浏览器在以下输出之前超时,并显示“无法打开页面”

Processing FmfilesController#create (for 127.0.0.1 at 2008-09-15 16:50:56) [POST]
Session ID: BAh7CDoMdXNlcl9pZGkGOgxjc3JmX2lkIiVmM2I3YWU2YWI4ODU2NjI0NDM2
NTFmMDE1OGY1OWQxNSIKZmxhc2hJQzonQWN0aW9uQ29udHJvbGxlcjo6Rmxh
c2g6OkZsYXNoSGFzaHsABjoKQHVzZWR7AA==--dd9f588a68ed628ab398dd1a967eedcd09e505e0
Parameters: {"commit"=>"Import DDR", "authenticity_token"=>"3da97372885564a4587774e7e31aaf77119aec62", "action"=>"create", "fmfile_document"=>#<File:/var/folders/LU/LU50A0vNHA07S4rxDAOk4E+++TI/-Tmp-/CGI.3001.1>, "controller"=>"fmfiles"}
[4;36;1mUser Load (0.000350)[0m   [0;1mSELECT * FROM "users" WHERE (id = 1) LIMIT 1[0m
[4;35;1mFmfile Create (0.000483)[0m   [0mINSERT INTO "fmfiles" ("name", "file_group_id", "updated_at", "report_created_at", "report_link", "report_version", "option_on_open_account_name", "user_id", "option_default_custom_menu_set", "option_on_close_script", "path", "report_type", "option_on_open_layout", "option_on_open_script", "created_at") VALUES('TheTest_fp7 2.xml', 1, '2008-09-15 15:50:56', NULL, NULL, NULL, NULL, 1, NULL, NULL, NULL, NULL, NULL, NULL, '2008-09-15 15:50:56')[0m

REXML::ParseException (#<Iconv::InvalidCharacter: "਼䙍偒数 (followed by a few thousand similar looking chinese characters)
䙍偒数潲琾", ["\n"]>
/Library/Ruby/Site/1.8/rexml/encodings/ICONV.rb:7:in `conv'
/Library/Ruby/Site/1.8/rexml/encodings/ICONV.rb:7:in `decode'
/Library/Ruby/Site/1.8/rexml/source.rb:50:in `encoding='
/Library/Ruby/Site/1.8/rexml/parsers/baseparser.rb:210:in `pull'
/Library/Ruby/Site/1.8/rexml/parsers/treeparser.rb:21:in `parse'
/Library/Ruby/Site/1.8/rexml/document.rb:190:in `build'
/Library/Ruby/Site/1.8/rexml/document.rb:45:in `initialize'
4

4 回答 4

1

而不是 rails/mongrel 问题,听起来更有可能是您的 XML 文件或 REXML 处理它的方式存在问题。您可以通过编写一个简短的脚本来直接(而不是在请求中)读取您的 XML 文件并查看它是否仍然失败来检查这一点。

假设确实如此,我会看几件事。首先,我会检查您是否正在运行最新版本的 REXML。几年前,在其 UTF-16 处理中 存在一个错误 ( http://www.germane-software.com/projects/rexml/ticket/63 )。

我要检查的第二件事是您的问题是否与此类似:http ://groups.google.com/group/rubyonrails-talk/browse_thread/thread/ba7b0585c7a6330d 。如果是这样,您可以尝试该线程中的解决方法。

如果以上都没有帮助,请回复更多信息,例如您在尝试读取文件时遇到的异常。

于 2008-09-15T15:42:30.013 回答
0

因为要让它工作,我只需要将第一个 XML 元素的编码属性更改为 UTF-8 而不是 UTF-16,因此 XML 文件实际上是 UTF-8 并且被生成它的应用程序错误地标记。

XML 文件是 FileMaker Pro Advanced 8.5 在 OS X 10.5.4 上生成的 FileMaker DDR 导出文件

于 2008-09-15T18:02:12.860 回答
0

实际上,我认为您的问题可能与我刚刚在这篇文章中详述的问题有关。如果我是你,我会在 TextPad 中以二进制模式打开它,看看在你的 XML 启动之前是否有任何字节顺序标记。

于 2008-11-14T21:23:36.113 回答
0

您是否尝试过使用 JRuby 执行此操作?我听说 Unicode 字符串在 JRuby 中得到了更好的支持。

您可以尝试的另一件事是使用另一个 XML 解析库,例如 libxml ou Hpricot。

REXML 是您可以使用且可能无法扩展的最慢的 Ruby XML 库之一。

于 2008-11-04T16:53:52.393 回答