0

我刮掉了下面的链接,我想使用 Python 处理文本以进行进一步分析。有争议的部分是“kwa vimada wake”。我想得到与它打算显示的方式相对应的文本(并且确实显示在我的浏览器上),如“kwa vimada wake”。但是,“vimada”周围有隐藏字符,如果您将文本复制并粘贴到像Notepad ++这样的程序中,您可以看到这些字符。这些与我的标记化和 NLP 处理混淆(例如,POS 标记器无法识别该单词)并且似乎在我的脚本和其他程序之间不一致(在使用机器学习然后将结果加载到我的脚本中之后,我最终与 vimadaÃ,它无法与 vimada� 匹配)。

该网页似乎使用 UTF-8 编码,我的文件使用 UTF-8 编码保存。如果我能解决这个问题并消除任何奇怪/隐藏的字符,我就不会有文件间的一致性或将其用作 NLP 工具的输入的问题。

我的脚本使用 # - - 编码:utf-8 - -

我更愿意使用我已经下载的文本,因为对站点的安全更改使得重新抓取它变得不切实际。我的数据库将其保存为“kwa âvimadaâ wake”。开始/结束字符在 Notepad++ 中分别显示为三个字符:[â][PAD][SOS] 和 [â][PAD][SGCI]。

我想删除 unicode 空白/隐藏字符并将所有标点符号变体(如撇号、引号、连字符等)转换为它们的 ASCII 等价物。我宁愿保持重音字符不变。但是,目前并非所有重音字符都被正确解释。有些编码不正确,有些可能是由于软件更改而在网站上更改并显示为 é 之类的 html 代码。因此,简单删除一类字符不会正确清理数据。我正在使用python 2.7。

http://www.jamiiforums.com/threads/rais-dhaifu-ccm-uchaguzi-2015.459292/#post-6461865

4

0 回答 0