-1

我有以下文本文件:

VERDICT: 
MR. FOREMAN:  Guilty.        
THE COURT:  Accused and, you have been found guilty on the charges as you have heard the Foreman for the jury say.  You are remanded.  I have requested a probation report and you are remanded until sentencing, until the Court receives the probation report. 
THE COURT:  Mr. Foreman and members of the jury, on behalf of the administration of justice   
THE CLERK:  Joh Doe the jury have found you guilty.  Have you anything to say before Her Ladyship, the Judge, proceeds to sentence you?                      
SENTENCE:
THE COURT:  John Doe.

我想使用verdict、foreman、court、clerk、sentence等关键字作为标签,将这些信息输入数据库。请告诉我如何提取这些单词以创建标签以形成 xml 文档以将其放入数据库中。我一直在使用正则表达式和数据提取进行搜索,但我还没有找到任何东西。

4

1 回答 1

0

你有预期标签的列表吗?

  • 如果是,哪一部分不清楚?
    • 只需从 XML 中提取所有相关字符串(使用任何解析器,您没有提到语言,因此无法给出示例)。
    • 应用包含允许标签的正则表达式,如果匹配则添加标签。
    • PS:如果你有太多的标签和/或太多的数据来处理对每个输入字符串应用一个正则表达式/标签可能不是最有效的。
  • 如果不是,那么我想您应该假设某些单词是标签并添加它们。虽然我不喜欢这个想法(通常我希望用户思考并给我他想要标记他的输入的标签)我能想到的一种方法是制作一个你不想用作标签的单词列表(例如“and”、“or”、“I”、“we”、...),使用 regEx replace 删除所有这些单词,取剩余单词
于 2011-09-15T23:11:47.217 回答