问题标签 [windows-1252]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 检测编码转换问题
我公司网站上的大部分内容都以 Word 文档(Windows-1252 编码)开始,最终被复制并粘贴到我们的 UTF-8 编码内容管理系统中。转换通常会阻塞一些必须手动清理的字符(特殊中断字符、智能引号、科学记数法),但当然有一些总是会漏掉。
你认为最好的方法是检测这些?
c# - Streamwriter:波兰字符被跳过?
我正在尝试制作一个小工具来帮助一些人在 SAP 安装和 Axapta 安装之间转换数据。
我得到一个西欧(Windows)编码(1252)的文本文件。他们添加了一些特殊字符来替换一些波兰语字符。现在我的工作是用正确的波兰语字符替换那些特殊字符。
如果我调试应用程序并在“objTemp2.WriteLine(strLineText);”上设置断点 线。然后我可以确定 strLineText 变量中的值是完美的。特殊字符被正确的波兰字符替换。
如果我之后打开写入的文件,则找不到正确的波兰语字符。我正在使用“ś”和“Ś”,两者都在文件中保存为“s”和“S”。
我错过了什么,还是忽略了一些非常重要的事情?
encoding - Windows-1252 到 UTF-8 编码
我已将某些文件从 Windows 机器复制到 Linux 机器。所以所有的 Windows 编码(windows-1252)文件都需要转换为 UTF-8。不应更改已在 UTF-8 中的文件。我打算为此使用该recode
实用程序。如何指定该recode
实用程序只应转换 windows-1252 编码文件而不是 UTF-8 文件?
重新编码的示例用法:
这myfile.txt
将从 windows-1252 转换为 UTF-8。在这样做之前,我想知道它myfile.txt
实际上是 windows-1252 编码的,而不是 UTF-8 编码的。否则,我相信这会损坏文件。
java - Java 1.6 Windows-1252 编码在 3 个字符上失败
编辑:我一直相信这个问题有点荒谬。感谢那些回复的人。我可能会发布一个更具体的后续问题。
今天我投入了一些编码问题并编写了这个单元测试来隔离一个基本的重现案例:
输出:
Mac OS 10.6.2 上的 JDK 1.6.0_07
我的观察:
Latin1 对称地编码所有 254 个字符。Windows-1252 没有。三个可打印字符(193、205、207)在 Latin1 和 Windows-1252 中是相同的代码,所以我不认为会有任何问题。
谁能解释这种行为?这是JDK错误吗?
- 詹姆士
unicode - 用于 UTF8 到 1252 的 Windows C API
我熟悉 WideCharToMultiByte 和 MultiByteToWideChar 转换,可以使用它们来执行以下操作:
UTF8 -> UTF16 -> 1252
我知道 iconv 会做我需要的,但是有人知道任何 MS 库可以在一次调用中允许这样做吗?
我可能应该只是拉入 iconv 库,但我感觉很懒。
谢谢
java - 如何在java中将文本内容标准化为UTF 8
我们有一个 CMS,其中包含数千个文本/html 文件。事实证明,用户一直在使用各种字符编码(utf-8、utf-8 w BOM、windows 1252、iso-8859-1)上传文本/html 文件。
当这些文件被读入并写入响应时,我们的 CMS 框架会在响应的 content-type 属性上强制使用 charset=UTF-8。
因此,任何非 UTF-8 内容都会显示给用户,并带有损坏的字符(?、黑色菱形等,当没有从“本机”字符编码到 UTF-8 的正确字符转换时)。此外,这些文档没有附加元数据指示字符集 - 据我所知,判断它们是什么字符集的唯一方法是在文本呈现应用程序(Firefox、Notepadd++ 等)中查看它们并“查看" 在内容上看它是否“看起来”正确。
有谁知道如何自动/智能地将未知编码的文件转换为 UTF-8?我读过这可以通过统计建模来完成,但这就是我头顶上的事情。
关于如何最好地解决问题的想法?
谢谢
php - Jquery ajax 调用和字符集 windows-1252
亲爱的stackoveflow,我有这个问题。我正在使用旧版本的 mssql (2000),它的所有表都在 windows 1252 中编码(就是这样)。我可以使用这一行成功地使用 php 进行读写:
如果我做一个正常的帖子,一切都会按预期工作,如果我做 ajax 风格,我会在表格中写出乱七八糟的字符。我也试过这个:
没有运气。有谁能够帮助我?
谢谢
html - 提交的字符编码——_charset_隐藏字段
对于我们的 Web 应用程序,我们有多个包含文本区域的 HTML 页面。我们所有的页面都使用 ISO-8859-1 字符集呈现。当在 Windows 机器上通过 IE6 访问页面并将“智能引号”等特殊字符复制到文本区域时,我们的某些页面使用 Windows 1252 字符编码提交页面。在其他情况下,页面似乎使用 UTF-8 字符编码提交。我一直在使用以下隐藏字段跟踪提交字符编码:
在 Windows 1252 提交字符编码页面上,我们收到“windows-1252”的值。
在 UTF-8 提交字符编码页面上,我们收到一个空白值。
在后端,我们使用 ISO-8859-1。虽然理想情况下我们希望提交字符编码,但我看不到在 IE 6 上强制执行该行为的选项。鉴于在 Windows 1252 和 UTF-8 之间进行选择,我更希望在 Windows 1252 中提交内容,这样更有可能以在 ISO-8859-1 中重新呈现页面时正确呈现。
我已经深入研究了我们的页面,没有什么让我觉得有些页面以一种字符编码提交的原因。
1) 当 IE 6 返回一个空白字符集时,这实际上是否等同于 UTF-8?当提交字符编码为 UTF-8 时,IE 6 是否总是返回一个空白字符集,或者仅当它无法正确确定要使用的字符编码时?
2) 页面上可能存在哪些差异会导致 IE 6 在某些页面上选择 Windows 1252 而在其他页面上选择 UTF-8?我在页面上扫描了 UTF-8 字符和任何接受字符集属性,但都找不到。
附加说明:我在以下链接中找到了有关字符集隐藏输入的信息。
http://web.archive.org/web/20060427015200/ppewww.ph.gla.ac.uk/~flavell/charset/form-i18n.html
php - XMLReader -- 遇到 utf 字符的问题
我正在解析一个巨大的 xml 文件,并且文件的编码是
< ? xml 版本="1.0" 编码="ISO-8859-1" ?>**粗体
db 编码是 utf8,我在将任何内容保存到 db
$sql='SET NAMES "utf8" COLLATE "utf8_swedish_ci"';之前运行此查询
问题是有时一些非标准字符会出现在 xml 文件中,例如
Lycka™ : roman
我知道商标符号来自 windows-1252 编码。
我正在使用 php。我试过utf8_encode。
这里保存在 db和
这是浏览器中的输出
我希望它转换为utf,就是这样
c# - 将 Unicode 转换为用于 vCard 的 Windows-1252
我正在尝试用C#编写一个程序,它将具有多个联系人的 vCard (VCF) 文件拆分为每个联系人的单独文件。我知道大多数手机需要将 vCard 保存为 ANSI (1252) 才能读取它们。
但是,如果我使用打开一个 VCF 文件StreamReader
,然后使用StreamWriter
(将 1252 设置为编码格式)将其写回,则所有特殊字符(如å
,æ
和)ø
都将被写为?
. ANSI (1252) 肯定会支持这些字符。我该如何解决?
编辑:这是我用来读写文件的一段代码。