嗨,我正在研究IBM共享的关键点分析任务,这是链接。在给定的数据集中有不止一行文本,任何人都可以告诉我如何将文本列转换为张量并再次将它们分配到同一个数据框中,因为那里还有其他数据列。
问题
在这里,我面临一个问题,我以前从未见过这种数据,比如有多个文本列,如何将所有这些列转换为张量,然后应用模型。大多数时候数据是这样的:一个文本列,其他列是标签,例如:电影评论,有毒评论分类。
def clean_text(text):
"""
text: a string
return: modified initial string
"""
text = text.lower() # lowercase text
text = REPLACE_BY_SPACE_RE.sub(' ',
text)
text = BAD_SYMBOLS_RE.sub('',
text)
text = text.replace('x', '')
# text = re.sub(r'\W+', '', text)
text = ' '.join(word for word in text.split() if word not in STOPWORDS)
return text