我有一个字符串列表(论坛上的主题),例如:
"[John Smith] Hello my friend 1080p"
"It was him! by Ronnie"
"new: Hello, my friend, J. Smith"
"Askade la bonko"
...
"Smith John: Hello my friend! (super mega must see!)"
"Alibaba won that game by John Smith"
我需要过滤相同的内容主题。从这个列表中,我可以看到 1,3(标题中有逗号)和 pre-last(标题中有 !)主题具有相同的内容,但标题略有不同(“你好,我的朋友”)。
有什么算法可以过滤这些吗?我的意思是我只想在我的字符串列表中有一个“你好,我的朋友”。谢谢指教!