这是我第一次涉足 NLP,所以请原谅我的无知。我正在寻找一种从用户的社交资料中提取兴趣/喜欢/爱好的方法。这是一个示例,其中所有兴趣/喜欢/爱好都以粗体显示:
“我认为自己是一个非常多元化的角色......我是一名职业 摔跤手,但我会为Wall•E吃一颗子弹。我在健身房里训练得像一台单人种族灭绝机器,但我在“世界末日”时哭了。 “我要去AC/DC,我正在认真考虑纹一个塞尔达传说的纹身。我对 420 很友好。我喜欢和兄弟会的人群聚会一晚,和我的Burning Man一起出去玩接下来是朋友,然后玩光环和魔兽世界,然后和不超过 40 岁的朋友一起玩。我最小的朋友是 16 岁,我最大的朋友是 66 岁。我'会唱歌在酒吧里唱卡拉 OK,我是我朋友的集体心理医生/肩膀。”
配置文件是纯文本。没有与之相关的元标记或 ID,它只是一段文本。
我幼稚的想法是将每个名词与Freebase进行匹配,以查看它是否是活动/艺术家/电影/书籍等。问题是,尽管提到的大多数实体都是用户喜欢的东西,但她也会提到她不喜欢的东西' t喜欢和我没有办法区分2。
我有两个问题:
- 我应该关注 NLP 的哪个子领域?一些可搜索的算法/技术/作者将不胜感激。
- 这个问题有多难?
谢谢!