1

我正在尝试在列中运行数据并使用 MeCab 库仅提取公司名称并将它们列出在新列中。目标列是一个注释列,其中包括员工姓名、公司名称、发票编号等全部或单独取决于交易。下面列出的是我试图仅提取公司名称的代码。请注意以下代码仍在生产中,但只是想发布一些内容。提前为我乱七八糟的编码道歉...

谢谢,

import mecab-python3
import ipadic
df = pd.read_csv("")
m = MeCab.Tagger(ipadic.MECAB_ARGS) 

def kaiseki(column):
    list=  df[column].values.tolist()
    new_list = []
    new_list2 = []

    for li in list:
        li = m.parse(li)
        new_list.append(li)

        li2 = li.split('\n')
        new_list2.append(li2)

    for li1 in li2:
        li2 = li1.split('\t')

    for li2_1 in li2:
        li2_1_1 = li2_1.split(',')[0]

#组织名在日语中是公司名称的意思

        if li2_1_1 == '組織名':
            print(li1.split()[0])
        else:
            continue

    df[column] = new_list
    df["column2"] = new_list2
    return df["columns2"]

columns = ['column']
for column in columns:
    kaiseki(column)
4

0 回答 0