我有一个大型的简历 (CV) 数据库,以及将所有用户技能分组的某个表技能。
在该表中,有一个字段Skill_text以全文形式描述技能。
我正在寻找一种算法/软件/方法来从该表中提取重要的术语/短语,以便建立一个具有标准化技能的新表。
以下是从数据库中提取的一些示例技能:
- 部门和竞争分析
- 业务发展(包括在国际环境中)
- 具体结构及道路设计软件——Microstation、澳门、AutoCAD(基础知识)
- 创意作品(Photoshop、In-Design、Illustrator)
- 检查并报告活动进度
- 组织和参加活动和展览
- 开发:Aptana Studio、PHP、HTML、CSS、JavaScript、SQL、AJAX
- 学科:一对一营销,电子营销(SEO和SEA,展示,电子邮件,联盟计划)混合营销,病毒营销,社交网络营销。
输出应该是这样的:
- 部门和竞争分析
- 业务发展
- 具体结构和道路设计软件——
- 澳门
- AutoCAD
- Photoshop
- 设计中
- 插画家
- 组织活动
- 发展
- 阿普塔纳工作室
- PHP
- HTML
- CSS
- JavaScript
- SQL
- AJAX
- 混合营销
- 病毒式营销
- 社交网络营销
- 发电子邮件
- 搜索引擎优化
- 一对一营销
如您所见,只有技能仍然没有其他表示文本。
我知道使用文本挖掘技术可以做到这一点,但该怎么做呢?数据库真的很大..这是一件好事,因为我们可以计算文本频率并确定它是真正的技能还是只是无意义的文本......最大的问题是..如何确定“blablabla”是一种技能?
编辑:请不要告诉我使用文本工具或正则表达式之类的标准东西..因为用户以非常任意的方式输入技能!
谢谢