“gb2312”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

60 浏览

python-2.7 - 从html下载中文表格后的奇怪字符

我正在使用 MAC OS X 10.12 系统。我从http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2011/51/06/81/510681114.html下载了一个表格。表格是用GB2312编码的，但是我用GBK来保存表格。代码的主要部分如下所示：

我对许多其他类似的表格重复了这种代码模式，但是，对于某些链接（例如我在此处发布的那个），下载的中文表格带有奇怪的字符。这是示例。

怎么把这个表转成真正的中文，或者怎么下载中文表？

问题是，如果我选择使用GB2312，也许这张表可以正确显示中文，但对于其他表，它仍然会显示这些烦人的奇怪字符。

2017-07-05T08:42:02.350

0 投票

0 回答

602 浏览

php - 如何在 PHP 中将 GB2312 中的字符正确转换为 UTF-8？

我有中文单词的变量，它们的字符集是 GB2312。我想将它们转换为 UTF-8，因为我想用 utf-8 编码将它们保存到 mysql 表中。那是PHP怎么做的？我正在使用 PHP 7。

这是我尝试过的：

我试过使用$myvar = iconv('gb2312', 'utf-8', $myvar);但是如果我的一些变量包含一些字符（可能是无效的 UTF-8 字符？）
我试过使用$myvar = mb_convert_encoding($myvar, 'UTF-8', 'GB2312');它比iconv但当$myvar包含我上面提到的一些字符时，它们会变成问号 ( ?)

请帮助我，谢谢

更新这里是我的中文字符串的一个例子：

GB2312（预期结果）：第3章︰林鸿
使用mb_convert_encoding成为：第3章？林？
使用iconv变空

php utf-8 character-encoding gb2312 mb-convert-encoding

2019-03-12T15:34:53.907

0 投票

1 回答

122 浏览

c++ - 在macos开发qt应用程序上使用rapidjson时如何获得正确的中文？

我在 macOS 和 windows 上开发了一个跨平台的 qt 应用程序，我有一个名为“proj.json”的文件，它是由我在 windows 上的应用程序中的 rapidjson 生成的，在 windows 上它的编码格式是 GB2312，现在我在我的mac 上的应用程序在 proj.json 文件中有一个字符串 proj.json，在我的 qt 应用程序中，在 proj.json 文件中有一个字符串。 \Templates22D 魔法师\2D 魔法师\.fuproj'

它注销'str1----.\Templates\2D\314\371ֽ\2D\314\371ֽ.fuproj'，我没有字符串'.\Templates\2D\314\371ֽ\2D的编码格式\314\371ֽ.fuproj'，而我在 mac 运行时编码格式上的 qt 应用程序是 'UTF-8'，看来 GB2312 转换为 UTF-8 是因为这个。如何让 GB312 字符串 'Templates\2D.\'2D.\'2D.D.fuproj' 在 macos 上的 qt 应用程序中正确显示，非常感谢！

c++qt character-encoding chinese-locale gb2312

2019-05-14T03:01:19.520

0 投票

0 回答

464 浏览

utf-8 - 为什么iconv不能转换字符

我得到了这个错误。有人知道出了什么问题吗？谢谢。

utf-8 iconv gb2312

2019-06-13T21:20:14.533

0 投票

1 回答

91 浏览

java - 声明中带有 ISO-8859-1 的 GB2312 的 Java XML 编码

我正在努力将创建 XML 的代码从 Java 1.4 迁移到 1.8。从旧的 java 代码，它将 xml 文件编码为 GB2312，XML 声明是这个 <?xml version="1.0" encoding="ISO-8859-1"?> 具有正确的中文字符。但是当我迁移到 java 1.8 时，整个 XML 变成了 ISO-8859-1，而汉字变成了这样的东西威猛

这是带有 ISO-8859-1 声明和 GB2312 编码的旧代码 XML 文件的示例输出

这是新代码的示例输出

带有 ISO-8859 声明和 GB2312 编码问题的 XML 文件

谢谢你的帮助

java xml encoding iso-8859-1 gb2312

2020-08-31T15:39:44.053

0 投票

1 回答

129 浏览

hex - 这是什么文本：=B0=A1=C1=CB ...以及如何将其转换为普通文本？

我在这种形式中找到了一些文本：

主要包含由等号后跟两个十六进制数字组成的序列。

我听说它可以转换成这样的中文句子：

什么是=B0=A1=C1以及如何解码/转换它？

hex quoted-printable gb2312

2020-12-18T02:17:46.780

0 投票

1 回答

92 浏览

powershell - 将 GB2312 编码的 MIME 转换为可读字符串

当我问这个问题时，我为听起来很无知而提前道歉，但我不太擅长概念化编码和解码数据的概念。

例如，我可以访问具有以下值的 MIME 编码文本：

我知道（或者很确定我知道）它是使用 GB2312 编码的。使用在线解码器翻译告诉我它是英文中的“sheet”一词。有没有办法将它解码成它的源语言字符，我什至可以将它放入第 3 方翻译器中，以便从 PowerShell 用英语阅读它？我觉得问这个问题像个白痴，因为我什至不确定我是否以一种聪明的方式问这个问题，因为我对所涉及的所有核心部分缺乏了解。

我试过浏览 Encoding 类，但它没有任何东西可以支持这种类型。是否有任何其他模块或我不知道的可用东西可以促进这一点？

感谢您提供的任何帮助，并感谢您接受有关此主题的教育。

powershell encoding gb2312

2021-02-10T23:38:10.257

0 投票

1 回答

40 浏览

utf-8 - 在 colab 中解码 gb-2312 文件

我正在尝试在 Colab 中打开一个使用 gb-2312 编码的文件。这是我在 IDE 中成功运行以读取和解码的代码：

当我在 colab 中运行此代码时，我收到以下错误：

但是如果不先使用 read() 或 list() 就无法解码，否则会出现以下错误：

这似乎是第 22 条规则。这是 Colab 的一个错误，还是有更好的方法来解决这个问题？

utf-8 google-colaboratory gb2312

2021-02-24T01:09:05.153

0 投票

1 回答

84 浏览

unicode - 为简体中文标识符构建令牌

我正在尝试为简体中文标识符构建一个令牌。

简体中文标识符在规范中定义如下：

这是UNICODE-BESTFIT和Windows Codepage 936。

例如，我所做的是%xA3C1在页面中查找，然后获取其对应的代码，即0xff21. %xA3C1因此，我找到了, %xA3DA, %xA3E1, %xA3FA, %xA1A2, %xA1AA, %xA1AC, %xA1AD, %xA1B2,的相应代码%xA1E6；%xA1E8, %xA1EF, %xA2B1, %xA2FC, %xA4A1, %xFE4F, 和构建CP936-initial-character如下：

但是，问题在于，例如，某些范围看起来很奇怪，0x00a4 .. 0x2605并且0x2488 .. 0x216b顺序不正确；而且0x3041 .. 0xfa29看起来太大了。

有谁知道构建这个令牌的正确方法是什么？

unicode cjk codepoint gb2312

2021-08-13T04:32:14.450

0 投票

0 回答

36 浏览

python - 使用 linecache.getline 读取 GB2312 编码文件

我需要读取具有给定行号的 GB2312 编码文件中的指定行。很多人提到linecache.getline(file_path,line_no)的是正确答案。但是 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 72: invalid continuation byte当我尝试读取 GB2312 文件时它出现了，同时使用 utf-8 文件。

但是，在 Python 文档中，linecache.getline()我没有找到任何指定编码方法的参数。

所以我想知道是否linecache.getline()能够读取非 utf-8 文件？如果是，如何？

这是一个最小的可重现示例。

将以下带有中文字符的文本存储为test.txt。然后使用 vs-code 或 notpad++ 将其转换为 GB2312 编码。

python utf-8 linecache gb2312

2022-01-26T16:28:17.033

问题标签 [gb2312]

Reference