python - 处理编码不一致/清除网页中的隐藏字符

Question

我刮掉了下面的链接，我想使用 Python 处理文本以进行进一步分析。有争议的部分是“kwa vimada wake”。我想得到与它打算显示的方式相对应的文本（并且确实显示在我的浏览器上），如“kwa vimada wake”。但是，“vimada”周围有隐藏字符，如果您将文本复制并粘贴到像Notepad ++这样的程序中，您可以看到这些字符。这些与我的标记化和 NLP 处理混淆（例如，POS 标记器无法识别该单词）并且似乎在我的脚本和其他程序之间不一致（在使用机器学习然后将结果加载到我的脚本中之后，我最终与 vimadaÃ，它无法与 vimada� 匹配）。

该网页似乎使用 UTF-8 编码，我的文件使用 UTF-8 编码保存。如果我能解决这个问题并消除任何奇怪/隐藏的字符，我就不会有文件间的一致性或将其用作 NLP 工具的输入的问题。

我的脚本使用 # - - 编码：utf-8 - -

我更愿意使用我已经下载的文本，因为对站点的安全更改使得重新抓取它变得不切实际。我的数据库将其保存为“kwa âvimadaâ wake”。开始/结束字符在 Notepad++ 中分别显示为三个字符：[â][PAD][SOS] 和 [â][PAD][SGCI]。

我想删除 unicode 空白/隐藏字符并将所有标点符号变体（如撇号、引号、连字符等）转换为它们的 ASCII 等价物。我宁愿保持重音字符不变。但是，目前并非所有重音字符都被正确解释。有些编码不正确，有些可能是由于软件更改而在网站上更改并显示为 é 之类的 html 代码。因此，简单删除一类字符不会正确清理数据。我正在使用python 2.7。

http://www.jamiiforums.com/threads/rais-dhaifu-ccm-uchaguzi-2015.459292/#post-6461865

python - 处理编码不一致/清除网页中的隐藏字符

0 回答 0

Related

Reference