我正在尝试从团购网站创建数据提取器算法,以构建交易聚合器。首先我需要一个算法来提取标题、价格、折扣、图像、坐标。
我有图像、折扣和坐标的解决方案,但对于标题和类别识别,我需要创建一个朴素贝叶斯算法。什么是最好的语言来做到这一点:php?Python?js?节点.js?
我需要什么来创建算法?
有例子的模型?等等。我给出了 100 个标题,然后给出了一些网站的所有网页内容,脚本可以识别什么句子是标题?
所以我不需要一个字。我需要一个句子,而那个句子有时<h1> - <h2>
是其他的。
我正在尝试从团购网站创建数据提取器算法,以构建交易聚合器。首先我需要一个算法来提取标题、价格、折扣、图像、坐标。
我有图像、折扣和坐标的解决方案,但对于标题和类别识别,我需要创建一个朴素贝叶斯算法。什么是最好的语言来做到这一点:php?Python?js?节点.js?
我需要什么来创建算法?
有例子的模型?等等。我给出了 100 个标题,然后给出了一些网站的所有网页内容,脚本可以识别什么句子是标题?
所以我不需要一个字。我需要一个句子,而那个句子有时<h1> - <h2>
是其他的。
我真的无法理解你的大部分帖子,但由于朴素贝叶斯是 SO 上非常常见的要求,我创建了一段简单的代码,无需任何额外的库(如 NLTK)即可在 python 中使用(而且速度也比NLTK 用于训练)。你可以在这里找到它。
如果您对 AI 算法没有任何经验,并且想添加一些可以学习的算法,我建议您应该使用 google prediction API: