python - 使用 spacy 从数据框中的列中编辑名称

Question

我有一个名为“df1”的数据框。该数据框有 12 列。此数据框中的最后一列称为注释。我需要替换此列中的“约翰、莎莉和理查德”等常用名称，并将值替换为 xxxx 或类似名称。我有一个从 MS SQL 创建这个数据框的工作脚本。我花了几个小时并使用各种资源来尝试获得一些可以做到这一点的代码，但我没有成功。我不必使用 Spacy，但有人告诉我这是一个很好的软件包。任何帮助，将不胜感激。

score 0 · Accepted Answer

您需要使用类似的解决方案

import spacy
import pandas as pd

# Test dataframe
df = pd.DataFrame({'notes':["Peter A. Smith came to see Bart in Washington on Tuesday."]})

print(df['notes'])
# => 0    Peter A. Smith came to see   Bart     in   Washington on  Tuesday.
##        <<PERSON>>     came to see <<PERSON>> in     <<GPE>>  on <<DATE>>.

nlp = spacy.load('en_core_web_trf')

def redact_with_spacy(text: str) -> str:
    doc = nlp(text)
    newString = text
    for e in reversed(doc.ents):
        if e.label_ == "PERSON": # Only redact PERSON entities
            start = e.start_char
            end = start + len(e.text)
            newString = newString[:start] + "xxxx" + newString[end:]
    return newString

df['notes'] = df['notes'].apply(redact_with_spacy)
print(df['notes'])

输出：

0    xxxx came to see xxxx in Washington on Tuesday.

请注意，您可以调整功能"xxxx"中的redact_with_spacy。x例如，如果您使用，则可以用相同数量的 s替换找到的实体newString = newString[:start] + ("x" * len(e.text)) + newString[end:]。或者，为了保留空格，newString = newString[:start] + "".join(["x" if not x.isspace() else " " for x in e.text]) + newString[end:].

python - 使用 spacy 从数据框中的列中编辑名称

1 回答 1

Related

Reference