问题标签 [unidecoder]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
963 浏览

python - 如何修复重音字符串[python]

我正在使用 web 应用程序从我玩的游戏结果中检索数据。由于我是巴西人,而且我的语言中有一些带有拉丁重音符号的字符,因此我检索到的大部分数据都无法使用。喜欢:

卡洛斯·洛佩兹 = Carlos Lã³Pez

我搜索了互联网,发现 ftfy 是一个很好的修复损坏文本的工具。无论如何,我不太了解 unicode、ascii 和其他东西,所以我使用了 ftfy,并收到了我已经有的相同错误作为输出。

我想知道是否有任何软件包可以解决这种错误,或者您是否可以给我任何线索,为什么 Carlos López 变成了 Carlos Lã³Pez。我很感激。

0 投票
2 回答
501 浏览

python - 从 python 中的 postgres unidecode 文本列

我是 Python 新手,我想从 postgresql 数据库中获取一列“user_name”并删除名称中的所有重音符号。Postgres 早些时候有一个名为 unaccent 的函数,但现在似乎不起作用。所以,我求助于 Python。

到目前为止,我有:

当我运行这段代码时,我收到以下错误:

起初,我认为我应该将 user_name 列转换为字符串。所以,我使用了 df['user_name'].astype('str')。但是这样做后我仍然遇到同样的错误。

任何帮助或指导将不胜感激。

数据样本:

 

0 投票
3 回答
5096 浏览

python - Python / Pandas:UnicodeDecodeError:'utf-8'编解码器无法解码位置133中的字节0xcd:无效的继续字节

我正在尝试构建一种方法来导入多种类型的 csv 或 Excel 并将其标准化。一切都运行顺利,直到某个 csv 出现,这给我带来了这个错误:

我正在构建一组尝试/例外以包括数据类型的变体,但对于这个我无法弄清楚如何防止。

顺便说一下,文件的分隔符是“;”。

所以:

a) 我知道如果我能确定“位置 133”中的字符是什么,那么追查问题会更容易,但我不知道如何找出来。有什么建议么?

b)有没有人建议在该尝试/除外序列中包含什么以跳过此问题?

0 投票
1 回答
92 浏览

python - 从 python 数据框中删除重音符号

我有一个看起来像这样的数据框:

大西洋
康蒙
吉翁

我想从每个元素中删除所有重音。

我正在做的是:

结果,我收到一条错误消息,上面写着:

谁能帮我?问候

0 投票
0 回答
40 浏览

python - 如何更改 python 代码以抓取带有重音字符的文本?

我写了一个代码来从一个特定的网站上抓取文章,这样我就可以把这个代码创建的 csv 放到 Geneea(文本分析程序)中。问题是我使用 unicode 编写了这段代码,但后来我意识到我需要用重音字符刮掉文本。这段代码为我提供了我需要的输出,但是对于文本分析程序来说,具有重音字符的文本至关重要。您对我如何更改此代码有任何建议吗?

非常感谢大家!

我的代码如下: