我有这个函数,它使用 textacy 来提取源属性。这会自动返回引用的说话者、提示和内容。在我的数据集中,有些段落有几个引用,但我只需要第一个,这就是我将 BREAK 放在 for 循环中的原因。
我现在的问题是一些原始数据没有引号,所以我希望函数不仅会跳过它,它还会返回一些东西。我相信问题出在EXCEPT之后:
它返回如下内容:
但它应该跳过第一行,因为第一行返回一个错误,所以我希望它看起来像这样:
import textacy
from textacy import extract
import spacy
def extract_direct(text):
extracted = pd.DataFrame()
for i in text:
try:
doc = nlp(i)
a = ex.direct_quotations(doc)
for item in a:
mined = {'speaker': item.speaker, 'cue': item.cue, 'content': item.content}
extracted = extracted.append(mined, ignore_index = True)
break
except ValueError:
continue
contents = news_only['index']
extracted = pd.concat([extracted, contents], ignore_index=True)
return(extracted)
extract_direct(dataframe['Body'])