是否有一些标签序列可能指示网页中的标题?例如,从亚马逊页面中提取书名,其中其他文本/句子可能具有相似的句子结构。我觉得这是一项非常基础的任务,但无法弄清楚如何使用斯坦福的 NER/CoreNLP 来完成它。
提前致谢!
是否有一些标签序列可能指示网页中的标题?例如,从亚马逊页面中提取书名,其中其他文本/句子可能具有相似的句子结构。我觉得这是一项非常基础的任务,但无法弄清楚如何使用斯坦福的 NER/CoreNLP 来完成它。
提前致谢!
不使用 CoreNLP 库的解决方案 - 如果您正在寻找网页上的标题,为什么不解析<title>
标签?
例如,饥饿游戏的亚马逊书页标题 ( http://www.amazon.com/Hunger-Games-Trilogy-Boxset/dp/0545626382/ref=sr_1_2?s=books&ie=UTF8&qid=1386299491&sr=1 -2&keywords=饥饿+游戏)是:
饥饿游戏三部曲套装:Suzanne Collins:9780545626385:Amazon.com:书籍
当然,标题标签取决于网站,它们可以与页面相关,也可以只是总体网站的标题。