0

在当今时代,我们对所有事物都有大量信息。有时,信息量很大,而且没有数字化。您将开发什么样的逻辑格式来从许多类似的手册中找到特定的信息,以便为用户实时提供要点信息。用户无需通读所有文档。您是否首先将文档转换为类似的结构?有什么建议么?
编辑:
我知道这是某种文本搜索问题。 让我举一个例子,这样问题就变得有点集中了:
MANUAL1: (for California)

Table of content 
...

Precautions:
1.) The operator must use synthetic gloves to handle chemicals
...

MANUAL2:(对于明尼苏达)

Table of content
...
Precautions:
1.) Use polymer gloves while being in any contact with hazardous chemicals
...

现在该程序的用户只需对“处理有害化学品”进行查询,程序应该为他提供上述两个选项

  1. CA) 操作员必须使用合成手套处理化学品
  2. MN) 在接触危险化学品时使用聚合物手套

非常感谢你。

4

1 回答 1

1

隐含地,您至少要应对五个级别的“重组”。

  1. 如何整理来自加利福尼亚的手册集?(文件的语料库)
  2. 如何从纯文本文件中提取文本?HTML?一个PDF?一个Word文档?(文档物理格式)
  3. 如何识别章节、章节、标题、副标题、标题、表格?(文档级别的语义)
  4. 如何解析纯文本以提取含义?(句子级别的语义)
  5. 如何处理同义词和整体关系?(本体)

当您认识到“与任何接触”与“处理”有关时,您的问题暗示了某种句子级别的语义和本体分析。

您可以查看IBM 的 Watson 项目,了解有关如何从大量数据中提取意义以及一些新颖的本体方法的一些想法。

对于这些问题,你的方法应该有多具体或通用?这部分取决于语料库的边界。您是在处理 Google 搜索“化学品”中出现的任何文件,还是只处理加利福尼亚州环保署的公开文件?

于 2012-04-27T14:47:38.260 回答