我试图从网页中获取某些阿拉伯语字符串,然后将这些字符串存储到数据库中。
第一个问题
.
我能做的唯一方法是通过使用和使用 unicode来指定它们有多少个字母,如下所示:
import urllib,re
content=urllib.urlopen("http://example.com/content.html").read()
content = unicode(content,"utf-8")
Strings = re.findall("<Strong>...........</strong>",content) # it will work fine and fetch it but only strings with 11 char or letter (11 place)
第二个问题
当我尝试将其写入文本文件时,它显示:
UnicodeEncodeError:“ascii”编解码器无法对位置 0-3 中的字符进行编码:序数不在范围内(128)
当我尝试将其存储到数据库中时,它会显示:
ProgrammingError: (1064, "您的 SQL 语法有错误;请查看与您的 MySQL 服务器版本相对应的手册,以了解在 '\xd8\xa7\xd9\x84\xd9\x82\xd8\xb5\ 附近使用的正确语法xd9\x8a\xd8\xb1)' 在第 1 行")
我的想法是获取它然后将其编码为base64,然后将其存储到db中,但仍然出现错误:
UnicodeEncodeError:“ascii”编解码器无法对位置 0-3 中的字符进行编码:序数不在范围内(128)