问题标签 [unicode-string]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python - BeautifulSoup html 解析处理 gbk 编码不佳 - 中文网页抓取问题
我一直在修改以下脚本:
具有以下输出:
打印
¡¡¡¡¡
打印 h
信息通</p>
吨
你'\xa1\xa1\xa1\xa1\xd0\xc5\xcf\xa2\xcd\xa8'
H
u'\u3000\u3000\u4fe1\u606f\u901a'
h.encode('gbk')
'\xa1\xa1\xa1\xa1\xd0\xc5\xcf\xa2\xcd\xa8'
简单的说:当我通过BeautifulSoup传入这个html时,它取gbk编码的文本,认为是unicode,不识别需要先解码。但是,“h”和“t”应该是相同的,因为 h 只是我从 html 文件中获取文本并手动转换它。
我该如何解决这个问题?
最好的
惠顿
delphi - 插入 Firebird 时出现“格式错误的字符串”异常(Delphi、UniDAC、UniSQL、INSERT、参数)
使用 Delphi 2010、UniDAC 组件、Firebird 2.5 SuperServer。数据库字符集是 ISO_8559_1(我的 Windows 默认)。
我正在编写一个数据传输应用程序,将数据从 Access 数据库传输到具有相同表结构的 Firebird 数据库。我正在使用 ADOQuery 组件从源表中选择所有行,然后遍历该记录集,并使用 UniSQL 组件和带有参数的 INSERT 语句,从相应的源数据集字段值中分配参数值。
运行插入命令时,它会引发“格式错误的字符串”异常。我被卡住了,需要帮助来解决问题。
代码如下:
TIA,史蒂夫
java - unicode访问问题
我是java世界中的一只新蜜蜂,我需要一个简单的java程序,它可以从一个文件夹访问一个pdf文件并将其存储在另一个文件夹中,我面临着如何读取非英文文件名的pdf文件的问题,意思是说如果文件名是这样的我如何读取这个文件并将其存储在另一个同名的文件夹中,这对我来说是非常紧急的要求,如果有人知道这个请给我一个代码,提前谢谢
python - 删除渲染模板中的 unicode 字符串
我正在尝试在此地址下返回类似 json 的对象:
http://ntt.vipserv.org/data/shows
但结果我得到:
{'1': {'url': u'http://www.rte.ie/tv/crimecall/', '图片': u'http://img.rasset.ie/0002c8d0-250.jpg' , 'id': u'2', 'name': u'Crimecall'}}
如何摆脱 unicode 字符串?
我的代码:
boost - 如何在 C++Builder UnicodeString 和 boost 字符串之间进行转换?
我有一个在文件系统的一部分中搜索文件的应用程序。用户应该在编辑框中输入文件的名称,然后我将其值分配给UnicodeString
变量。我怎样才能将其转换为boost::filesystem::path
呢?
php - Unicode 字符转换编码
你好我经常用php导入xml文件,但是这个文件包含一些奇怪的字符例如:\u2022(对应于 • real char),\u2019等等。php 中是否有任何函数可以将此字符转换为它们各自的真实字符(例如 \u2022-> •)?
delphi - 在 Delphi XE 中将 UnicodeString 转换为 PAnsiChar
在 Delphi XE 中,我使用的是BASS 音频库,其中包含以下功能:
'url' 参数的类型是 PAnsiChar,所以在我的代码中我做了一个演员表:
编译器在这一行发出警告:“字符串到 PAnsiChar 的可疑类型转换”。在尝试消除警告时,我发现推荐的方法是使用双重转换:
这确实消除了警告,但 BASS 函数现在返回错误代码 2(“无法打开文件”),它告诉我它收到的 URL 字符串以某种方式损坏。我看不到低音 DLL 实际接收到的内容,但在调试器中使用断点,字符串看起来不错:
此时字符串 s 看起来很好,但是当我通过它时 BASS 函数会失败。我的初始代码:PAnsiChar( url ) 与 BASS 配合得很好,但会发出警告。
那么在没有警告的情况下从 UnicodeString 到 PAnsiChar 的正确方法是什么?
python - Python urllib.request 和 utf8 解码问题
我正在编写一个简单的 Python CGI 脚本,它可以抓取网页并在 Web 浏览器中显示 HTML 文件(充当代理)。这是脚本:
这个脚本在命令行运行时运行良好,但是当它使用网络浏览器查看它时,它会显示一个空白页面。这是我在 Apache 的 error_log 中得到的错误:
delphi - 将 null 终止的内存流转换为 unicode 字符串
在 Delphi XE 中,我正在从剪贴板中捕获 CF_UNICODETEXT 数据。结果是一个以两个空字节结束的流。要获取复制到剪贴板的实际字符串,我需要去除空值。
这个类似的问题包含一个从 TMemoryStream 转换为 Delphi 的 unicode 字符串的好方法:
然而,在我的情况下,这将产生一个包含尾随空值的字符串。我可以通过限制大小来解决这个问题:
...但这感觉很难看,“特殊情况”。我想知道是否有一种更简洁的方式来编写代码,这样以后查看代码的任何人(我!)都不会立即问“为什么从流中删除尾随字符?”
编辑:先发制人的问题的一种方法是添加评论。但是,除此之外呢?
delphi - 如何使固定长度的 Delphi 字符串使用宽字符?
在 Delphi 2010 下(也可能在 D2009 下),默认字符串类型是 UnicodeString。
但是,如果我们声明...
...然后第一个字符串s如果声明为UnicodeString,但第二个ss声明为AnsiString!
我们可以检查一下:SizeOf(s[1]);
将返回大小 2 和SizeOf(ss[1])
; 将返回大小 1。
如果我声明...
...比我想要的ss也是 UnicodeString 类型。
- 我如何告诉 Delphi 2010 两个字符串都应该是 UnicodeString 类型?
- 我还能如何声明ss拥有四个 WideChars?编译器将不接受类型声明
WideString[4]
或UnicodeString[4]
. - 相同类型名称的两个不同编译器声明的目的是什么: string?