问题标签 [iconv]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2141 浏览

gcc - libiconv solaris-sparc/opteron 64 位

我有 64 位 solaris - sparc 和 opteron 系统。在 /usr/local/lib 下,我可以看到两个系统的 libiconv.so。libiconv.so 上的文件命令给出以下输出:-

如何在 sparc 和 opteron 系统上构建 64 位 libiconv 而不会干扰现有的 32 位?原因是,我不知道现有版本的 libiconv。

0 投票
0 回答
968 浏览

php - Zend Lucene 在一个服务器上索引 UTF-8,而不是另一个,相同的代码

我有一个基于 Zend Search Lucene 构建的自定义搜索引擎。该程序应该以多种语言(目前为 11 种)从全球来源获取数据。我遵循了我发现的所有方法,以确保所有内容都以 UTF-8 编码。在我的 Lucene 索引中,有四个字段可能包含特殊字符,但我们主要处理的是标题和描述字段,目前这些字段非常失败。

在我的本地机器上,我正在运行 XAMPP 进行开发和测试。代码在这里完美运行。我能够毫无问题地索引英语、西班牙语、中文、俄语和其他语言的内容。我可以使用 Luke 来检查结果索引,它看起来很棒。

在具有相同代码的实时服务器上(我已经尝试删除并重新上传以确保),生成的索引在特殊字符上失败。即中文和俄文不索引任何字符。在西班牙语内容中,它会在第一个重音字符所在的位置被截断。看起来也许第一个多字节字符只是杀死了存储。但是文档仍然保存到索引中。其他没有特殊字符的字段正确保存。

这是代码的样子(例如简化):

同样,这段代码加上 Zend 库在两种环境中都是相同的。本地实例会产生一个成功的索引,其中所有这些语言可以在同一个索引中共存,而无需使用不同的分析器。

这是服务器设置之间的比较:

  • 当地的
    • 阿帕奇版本:2.2.6
    • PHP版本:5.2.4
    • PHP 作为 Apache 模块运行
  • 居住
    • 阿帕奇版本:2.2.17
    • PHP版本:5.3.6
    • PHP 作为 FastCGI 运行

两台服务器都启用了 mbstring 多字节支持。我只是不确定还能看什么。CGI 与模块选项是否对此有影响?我需要比较任何其他设置吗?

0 投票
1 回答
778 浏览

ruby - 在 Ruby 中使用 Watir 填写 text_field 时出现编码问题

我正在使用 Watir 用我之前用另一个程序抓取的 html 代码填写 text_field。

我要传输的网站内容的语言是德语,因此涉及一些特殊字符,这些字符在英文字母表中不存在。

这些字符在 html 文件中正确显示,但是当传输到 Joomla 安装的 text_field 时(我正在使用此程序将网站传输到 Joomla),特殊字符无法正确显示。

由于用户的大力帮助,我已经能够解决以前的问题,现在正在使用以下方法传输内容:

结果是,特殊字符显示如下:

用户猜测这与我所在的代码页和编码问题有关。运行 DOS:chcp 导致输出 850。

他解决问题的尝试如下:

不幸的是,这并没有解决问题,特殊字符现在显示为例如:\x81ber = über vergi\xE1t = vergißt,新行显示为 \n

我使用以下代码用 Mechanize 刮掉了页面:

我希望你能以某种方式帮助我,因为我只是一个在这里工作的志愿者,有一点编程经验。如果我下周还没有让这个程序运行(这个编码是唯一真正阻止我的东西),那么我将不得不使用复制+粘贴手动传输一百页:/

感谢您抽出时间和您为此付出的所有努力!:-)

塞巴斯蒂安

0 投票
4 回答
1482 浏览

php - PHP iconv_strlen() 含义问题

我想知道下面这句话对我们这些傻瓜简单来说意味着什么?

什么是字节序列?一个字节有多少个字符?

iconv_strlen() counts the occurrences of characters in the given byte sequence str on the basis of the specified character set, the result of which is not necessarily identical to the length of the string in byte.

0 投票
1 回答
2426 浏览

php - 我可以使用 iconv 将多字节智能引号转换为扩展的 ASCII 智能引号吗?

我有一些包含多字节智能引号字符的 UTF-8 内容。我发现这段代码很容易将这些字符转换为 ASCII 直引号(ASCII 代码 34):

或者

但是,我宁愿将这些转换为扩展的 ASCII 智能引号(拉丁 1 编码中的 ASCII 代码 147 和 148)。有谁知道如何做到这一点?

0 投票
1 回答
346 浏览

php - PHP iconv_strlen函数显示问题

0 投票
1 回答
15140 浏览

centos - 如何在 CentOS 5.6 上安装 iconv-devel?

在CentOS 5.6 上安装 rvm并运行rvm notes

但是iconv-devel找不到:

我该如何安装它?

0 投票
2 回答
2554 浏览

ruby - Ruby 1.8 Iconv UTF-16 到 UTF-8 因“\000”而失败(Iconv::InvalidCharacter)

我在处理 Windows 机器上生成的表格数据的文本文件时遇到问题。我正在使用 Ruby 1.8。在处理文件中的第二行时,以下给出错误 ("\000" (Iconv::InvalidCharacter))。第一行已正确转换。

奇怪的是它毫无问题地读取并转换了文件中的第一行。我在 Iconv 构造函数中有 //IGNORE 标志——我认为这应该抑制这种错误。

我一直在兜圈子。任何建议将不胜感激。

谢谢!

编辑:霍布斯解决方案解决了这个问题。谢谢你。只需将代码更改为:

现在我只需要找到一种方法来自动确定要使用哪个获取分隔符。

0 投票
2 回答
1991 浏览

java - 在java应用程序中执行iconv

我想将一个大的 csv 文件从 gb2312 编码转换为 UTF-8 编码。这是我使用的代码:

问题是 proccess.waitFor() 方法永远不会结束。看起来 iconv 正在等待我的输入,比如从命令行调用它并且不提供任何参数。但来自终端的另一个会话。我可以看到 iconv 以正确的参数运行。

如果我从终端手动输入命令“iconv -c -f gb2312 -t utf-8 20110525.csv > 20110525.utf8.csv”可以正常工作。但是如果我从java调用它就行不通了。

我称为 iconv 的两种方式的起始目录具有相同的起始目录。

0 投票
1 回答
168 浏览

ruby-on-rails - 如何在 Ruby (Unicode) 中显示非美国文本

我显示来自编码为 Unicode 越南字符集的数据库中的文本。但它不能正确显示。

请在此处查看问题