0

我使用以下正则表达式函数:

def datesearcher(comment):
    matches = re.findall(
                     """(\d{2}\.Jan.\s\d{4}\sMitarbeiter\s)|(\d{2}\.Feb.\s\d{4}\sMitarbeiter\s)|(\d{2}\.März\s\d{4}\sMitarbeiter\s)
                     |(\d{2}\.Apr.\s\d{4}\sMitarbeiter\s)|(\d{2}\.Mai\s\d{4}\sMitarbeiter\s)|(\d{2}\.Juni\s\d{4}\sMitarbeiter\s)
                     |(\d{2}\.Juli\s\d{4}\sMitarbeiter\s)|(\d{2}\.Aug.\s\d{4}\sMitarbeiter\s)|(\d{2}\.Sep.\s\d{4}\sMitarbeiter\s)
                     |(\d{2}\.Okt.\s\d{4}\sMitarbeiter\s)|(\d{2}\.Nov.\s\d{4}\sMitarbeiter\s)|(\d{2}\.Dez.\s\d{4}\sMitarbeiter\s)""", comment
                     )
    return matches

基本上,我尝试在字符串中查找总是跟在同一个单词后面的日期。一个例子是(请原谅德国人):

 examplestring = "some text at the beginning 18.Jan 2017 Mitarbeiter some more text following or even more and more and more"

这应该返回:

[(18.Jan 2017,,,,,,,,,,,)]

之后我想把它应用到熊猫桌子上。

df["date"] = df["texts"].apply(datesearcher)

正则表达式仅返回 [],即使我使用https://regex101.com/对其进行了测试, 有人可以帮忙吗?谢谢!

4

0 回答 0