我想解析 DataFrame 的每个索引,以便使用 nlpot 可视化单词。
现在,我成功执行了数据框的一个句子。
import pandas as pd
path = r'C:\Users\LIVE Screening.csv'
df = pd.read_csv(path, sep=',', encoding='cp932')
df.head()
***
VOICE
0 字が綺麗になりたいから
1 始めたきっかけは親の影響です。
2 字がきれいになりたいから
3 字が綺麗な友人に憧れて。
4 文字を綺麗に書きたいと思ったので習い始めました。
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 1 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 VOICE 20 non-null object
dtypes: object(1)
memory usage: 288.0+ bytes
import MeCab
ps = tagger.parse(df['VOICE'][0])
line2 = ps.split('\n')
words = []
import re
for line in line2:
items = re.split('[\t,]',line)
if len(items) >= 2 and items[1] == '助詞':
continue
words.append(items[0])
print(' '.join(words))
***
字 が 綺麗 に なり たい から EOS
我尝试了几种方法来解析数据帧的每个索引,但都没有成功。如果您能给我一些建议,将不胜感激。