0

我正在尝试从包含时间、地点和名称的网页中解析实体。我读了一些关于自然语言处理和实体提取的内容,但我不确定我是否走错了路,所以我在这里问。

我还没有开始实现任何东西,所以如果某些开源库只适用于特定语言,那没关系。

很多时候数据不会在句子中找到,而是在 html 结构中,如列表(例如

  • 2013-02-01 - 赛事名称 - 竞技场名称
)。

网页的结构将大不相同(有些可能使用列表,有些可能会将它们放在表格中,等等)。

我可以研究哪些主题以了解有关如何实现这一目标的更多信息?是否有任何开源库在进行实体提取时考虑到 html 的结构?使用机器视觉从 html 中提取这些(名称、时间、地点)实体会更好(甚至可能),其中 CSS 样式可能更容易区分非结构化文本的重要部分(名称、时间、位置)?

任何关于我可以研究的主题/开源项目的指导都会对我有所帮助。

4

1 回答 1

1

许多编程语言都有外部库,可以从各种格式(例如在 Java 中,使用 )生成规范的日期戳SimpleDateFormat。正如你所说,网页的结构会有很大的不同,但是日期只能使用少量的变体来表达,所以写下一些(比如说,六种)格式的正则表达式会启用从大多数(如果不是全部)HTML 页面中提取日期。

然而,地名和地名的提取更加困难。这就是必须使用自然语言处理的地方。您正在寻找的是命名实体识别系统。最好的开源 NER 系统之一是Standford NER。在使用之前,您应该查看他们的在线演示。该演示具有三个分类器(用于英语),您可以从中进行选择。对于我的大部分任务,我发现他们的english.all.3class.distsim分类器非常准确。

请注意,当您提取的地点和名称出现在句子中时,NER 表现良好。如果它们将出现在 HTML 标签中,这种方法可能不会很有帮助。

于 2013-11-22T06:45:42.070 回答