我正在开发一个应用程序,该应用程序正在从旧试卷中创建一个问题数据库。我想维护一个表格,在插入类似问题时将它们链接在一起。(我想到的表是修改后的预排序遍历树)。
我的要求是:
- 更改数字的单词问题应该链接在一起
- 专有名词/名称不同的单词问题应该联系在一起。
- XYZ、ABC、PQR、MNO 等价(例如三角形命名法)
- 忽略标点符号和连词以及“小词”。
- 标签!我用它的主题标记每个问题。数学问题与历史问题相似的可能性很小。但是化学热力学问题可能类似于物理热力学问题。
任何关于如何在算法方面进行的想法都将非常感激。
此外,我将处理包含数学符号的图像。我应该确保我所有的图像在“ALT”属性中都有 LaTeX,以确保它们可以被这个算法处理,还是有更好的方法呢?