问题标签 [gb2312]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
60 浏览

python-2.7 - 从html下载中文表格后的奇怪字符

我正在使用 MAC OS X 10.12 系统。我从http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2011/51/06/81/510681114.html下载了一个表格 。表格是用GB2312编码的,但是我用GBK来保存表格。代码的主要部分如下所示:

我对许多其他类似的表格重复了这种代码模式,但是,对于某些链接(例如我在此处发布的那个),下载的中文表格带有奇怪的字符。这是示例。

怎么把这个表转成真正的中文,或者怎么下载中文表?

问题是,如果我选择使用GB2312,也许这张表可以正确显示中文,但对于其他表,它仍然会显示这些烦人的奇怪字符。

0 投票
0 回答
602 浏览

php - 如何在 PHP 中将 GB2312 中的字符正确转换为 UTF-8?

我有中文单词的变量,它们的字符集是 GB2312。我想将它们转换为 UTF-8,因为我想用 utf-8 编码将它们保存到 mysql 表中。那是PHP怎么做的?我正在使用 PHP 7。

这是我尝试过的:

  1. 我试过使用$myvar = iconv('gb2312', 'utf-8', $myvar);但是如果我的一些变量包含一些字符(可能是无效的 UTF-8 字符?)
  2. 我试过使用$myvar = mb_convert_encoding($myvar, 'UTF-8', 'GB2312');它比iconv但当$myvar包含我上面提到的一些字符时,它们会变成问号 ( ?)

请帮助我,谢谢

更新 这里是我的中文字符串的一个例子:

  • GB2312(预期结果):第3章︰林鸿
  • 使用mb_convert_encoding成为:第3章?林?
  • 使用iconv变空
0 投票
1 回答
122 浏览

c++ - 在macos开发qt应用程序上使用rapidjson时如何获得正确的中文?

我在 macOS 和 windows 上开发了一个跨平台的 qt 应用程序,我有一个名为“proj.json”的文件,它是由我在 windows 上的应用程序中的 rapidjson 生成的,在 windows 上它的编码格式是 GB2312,现在我在我的mac 上的应用程序在 proj.json 文件中有一个字符串 proj.json,在我的 qt 应用程序中,在 proj.json 文件中有一个字符串。 \Templates22D 魔法师\2D 魔法师\.fuproj'

它注销'str1----.\Templates\2D\314\371ֽ\2D\314\371ֽ.fuproj',我没有字符串'.\Templates\2D\314\371ֽ\2D的编码格式\314\371ֽ.fuproj',而我在 mac 运行时编码格式上的 qt 应用程序是 'UTF-8',看来 GB2312 转换为 UTF-8 是因为这个。如何让 GB312 字符串 'Templates\2D.\'2D.\'2D.D.fuproj' 在 macos 上的 qt 应用程序中正确显示,非常感谢!

0 投票
0 回答
464 浏览

utf-8 - 为什么iconv不能转换字符

我得到了这个错误。有人知道出了什么问题吗?谢谢。

0 投票
1 回答
91 浏览

java - 声明中带有 ISO-8859-1 的 GB2312 的 Java XML 编码

我正在努力将创建 XML 的代码从 Java 1.4 迁移到 1.8。从旧的 java 代码,它将 xml 文件编码为 GB2312,XML 声明是这个 <?xml version="1.0" encoding="ISO-8859-1"?> 具有正确的中文字符。但是当我迁移到 java 1.8 时,整个 XML 变成了 ISO-8859-1,而汉字变成了这样的东西 威猛

这是带有 ISO-8859-1 声明和 GB2312 编码的旧代码 XML 文件的示例输出

这是新代码的示例输出

带有 ISO-8859 声明和 GB2312 编码问题的 XML 文件

谢谢你的帮助

0 投票
1 回答
129 浏览

hex - 这是什么文本:=B0=A1=C1=CB ...以及如何将其转换为普通文本?

我在这种形式中找到了一些文本:

主要包含由等号后跟两个十六进制数字组成的序列。

我听说它可以转换成这样的中文句子:

什么是=B0=A1=C1以及如何解码/转换它?

0 投票
1 回答
92 浏览

powershell - 将 GB2312 编码的 MIME 转换为可读字符串

当我问这个问题时,我为听起来很无知而提前道歉,但我不太擅长概念化编码和解码数据的概念。

例如,我可以访问具有以下值的 MIME 编码文本:

我知道(或者很确定我知道)它是使用 GB2312 编码的。使用在线解码器翻译告诉我它是英文中的“sheet”一词。有没有办法将它解码成它的源语言字符,我什至可以将它放入第 3 方翻译器中,以便从 PowerShell 用英语阅读它?我觉得问这个问题像个白痴,因为我什至不确定我是否以一种聪明的方式问这个问题,因为我对所涉及的所有核心部分缺乏了解。

我试过浏览 Encoding 类,但它没有任何东西可以支持这种类型。是否有任何其他模块或我不知道的可用东西可以促进这一点?

感谢您提供的任何帮助,并感谢您接受有关此主题的教育。

0 投票
1 回答
40 浏览

utf-8 - 在 colab 中解码 gb-2312 文件

我正在尝试在 Colab 中打开一个使用 gb-2312 编码的文件。这是我在 IDE 中成功运行以读取和解码的代码:

当我在 colab 中运行此代码时,我收到以下错误:

但是如果不先使用 read() 或 list() 就无法解码,否则会出现以下错误:

这似乎是第 22 条规则。这是 Colab 的一个错误,还是有更好的方法来解决这个问题?

0 投票
1 回答
84 浏览

unicode - 为简体中文标识符构建令牌

我正在尝试为简体中文标识符构建一个令牌。

简体中文标识符在规范中定义如下:

在此处输入图像描述

这是UNICODE-BESTFITWindows Codepage 936

例如,我所做的是%xA3C1在页面中查找,然后获取其对应的代码,即0xff21. %xA3C1因此,我找到了, %xA3DA, %xA3E1, %xA3FA, %xA1A2, %xA1AA, %xA1AC, %xA1AD, %xA1B2,的相应代码%xA1E6%xA1E8, %xA1EF, %xA2B1, %xA2FC, %xA4A1, %xFE4F, 和构建CP936-initial-character如下:

在此处输入图像描述

但是,问题在于,例如,某些范围看起来很奇怪,0x00a4 .. 0x2605并且0x2488 .. 0x216b顺序不正确;而且0x3041 .. 0xfa29看起来太大了。

有谁知道构建这个令牌的正确方法是什么?

0 投票
0 回答
36 浏览

python - 使用 linecache.getline 读取 GB2312 编码文件

我需要读取具有给定行号的 GB2312 编码文件中的指定行。很多人提到linecache.getline(file_path,line_no)的是正确答案。但是 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 72: invalid continuation byte当我尝试读取 GB2312 文件时它出现了,同时使用 utf-8 文件。

但是,在 Python 文档中,linecache.getline()我没有找到任何指定编码方法的参数。

所以我想知道是否linecache.getline()能够读取非 utf-8 文件?如果是,如何?

这是一个最小的可重现示例。

将以下带有中文字符的文本存储为test.txt。然后使用 vs-code 或 notpad++ 将其转换为 GB2312 编码。