我是 NLP 领域的新手,但我目前的研究需要从 URL 地址中进行一些文本解析(或称为关键字提取),例如假 URL,
http://ads.goole.com/appid/heads
我的解析有两个约束,
第一个“ads”和最后一个“heads”应该是不同的,因为“heads”中的“ads”意味着更多的后缀而不是广告。
“appid”可以解析成两部分;即“app”和“id”,在互联网上都具有语义含义。
我试过斯坦福 NLP工具包和谷歌搜索引擎。前者试图将每个单词按我预期的语法含义进行分类。谷歌引擎对“appid”表现出更多的聪明,这给了我关于“app id”的建议。
我无法查看谷歌搜索中搜索历史的参考,因此它给了我“app id”,因为有很多人搜索过这些词。我可以得到一些离线方法来执行类似的解析吗?
更新:
请跳过正则表达式建议,因为即使是简单的 URL,也可能包含未知数量的单词组合,例如“appid”。
谢谢,
贾敏