我正在尝试在列中运行数据并使用 MeCab 库仅提取公司名称并将它们列出在新列中。目标列是一个注释列,其中包括员工姓名、公司名称、发票编号等全部或单独取决于交易。下面列出的是我试图仅提取公司名称的代码。请注意以下代码仍在生产中,但只是想发布一些内容。提前为我乱七八糟的编码道歉...
谢谢,
import mecab-python3
import ipadic
df = pd.read_csv("")
m = MeCab.Tagger(ipadic.MECAB_ARGS)
def kaiseki(column):
list= df[column].values.tolist()
new_list = []
new_list2 = []
for li in list:
li = m.parse(li)
new_list.append(li)
li2 = li.split('\n')
new_list2.append(li2)
for li1 in li2:
li2 = li1.split('\t')
for li2_1 in li2:
li2_1_1 = li2_1.split(',')[0]
#组织名在日语中是公司名称的意思
if li2_1_1 == '組織名':
print(li1.split()[0])
else:
continue
df[column] = new_list
df["column2"] = new_list2
return df["columns2"]
columns = ['column']
for column in columns:
kaiseki(column)