0

我想解析 DataFrame 的每个索引,以便使用 nlpot 可视化单词。

现在,我成功执行了数据框的一个句子。

import pandas as pd
path = r'C:\Users\LIVE Screening.csv'
df = pd.read_csv(path, sep=',', encoding='cp932')
df.head()
***
VOICE
0   字が綺麗になりたいから
1   始めたきっかけは親の影響です。
2   字がきれいになりたいから
3   字が綺麗な友人に憧れて。
4   文字を綺麗に書きたいと思ったので習い始めました。

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   VOICE   20 non-null     object
dtypes: object(1)
memory usage: 288.0+ bytes
import MeCab
ps = tagger.parse(df['VOICE'][0])
line2 = ps.split('\n')
words = []
import re
for line in line2:
    items = re.split('[\t,]',line)
    if len(items) >= 2 and items[1] == '助詞':
        continue
    words.append(items[0])

print(' '.join(words))
***
字 が 綺麗 に なり たい から EOS 

我尝试了几种方法来解析数据帧的每个索引,但都没有成功。如果您能给我一些建议,将不胜感激。

4

0 回答 0