5

是否有任何 python 模块(可能在 nltk python 中)来删除互联网俚语/聊天俚语,如“lol”、“brb”等。如果没有,有人可以为我提供一个包含如此庞大俚语列表的 CSV 文件吗?

网站http://www.netlingo.com/acronyms.php提供了首字母缩写词列表,但我无法找到任何 CSV 文件以在我的程序中使用它们。

4

2 回答 2

4

代码废弃http://www.netlingo.com/acronyms.php

from bs4 import BeautifulSoup
import requests, json
resp = requests.get("http://www.netlingo.com/acronyms.php")
soup = BeautifulSoup(resp.text, "html.parser")
slangdict= {}
key=""
value=""
for div in soup.findAll('div', attrs={'class':'list_box3'}):
    for li in div.findAll('li'):
        for a in li.findAll('a'):
            key =a.text
            value = li.text.split(key)[1]
            slangdict[key]=value

with open('myslang.json', 'w') as f:
    json.dump(slangdict, f, indent=2)
于 2018-07-05T06:42:46.523 回答
2
于 2011-12-14T13:44:00.523 回答