我是人工智能新手。我正在开发一个通过机器学习进行文本分类的应用程序。应用程序需要对 HTML 文档的不同部分进行分类。例如,大多数网页都有标题、菜单、侧边栏、页脚、主要内容等。我想使用文本分类器对 HTML 文档的这些部分进行分类,并识别页面上不同类型的表单。
- 如果有人可以提供有关此主题的详细指导,那将非常有帮助。
- 类似应用的例子,也会很有帮助。
我正在寻找更多与代码和实现相关的技术建议。
我可以将标签分配给 html 标签属性,例如 class 或 id
<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">
喜欢第一项:
TrainClassifier(label: "Menu", value: "menu-1", attribute: "class", position-in-string: "21%", tag: "div");
输入:
- “menu-1”(属性值)
- 项目清单
- “类”(属性名称)
- “21”(字符串中的标记位置)
- “div”(标签名称)
输出
- “菜单”(分类为标签)
什么神经网络库,可以把上面的输入,分类成标签(即菜单)。
所有用户都不能创建正则表达式或xpath,他们需要更简单的方法,所以让软件变得智能很重要,用户可以突出显示他/她需要的html文档部分,使用webbrowser控制,并训练软件直到它可以自己工作。
但我不知道如何使用人工智能让软件训练,
我正在寻找的人工智能是,它应该能够接受各种输入,并在此基础上进行分类,正如我已经说过的人工智能新手,对它了解不多。
如果我能回答我所问的问题,例如我应该使用什么库,以及如何实现,建议 Xpath 或 Regex 或其他方法的答案,请不要回答,这对我会有帮助,你经常会得到所有建议,但你需要的。