0

我的目标是从不同的提问者文档文件中制作 xml 文件。

例如。

Interviewer Name: Mr. K </br>
Street: BD 
Company: ABC

Mr. K: What is your Name? What is your father name?
Mr. R: My name is R.
          My father name is Z.
Mr. K: What is your hobby?
Mr. R: I like to play football.
       ......................

等等。

现在,我想从 doc 文件中解析它并转换为 xml 文件。xml 文件如下所示

<interview>
  <information>
      <p>Interviewer Name: Mr. K</p>
      <p>Street: BD </p>
      <p>Company: ABC</p>
  </information>
  <question><p>What is your Name? What is your father name?</p></question>
  <answer>
<p>My name is R.</p>
<p>My father name is Z. </p>
</answer>
<question><p>What is your hobby?</p></question>
<answer>
   <p>I like to play football.</p>
   <p>.......</p>
 </answer>

</interview> 

代码在这里

我使用 POI api 来读取 doc 文件和 DOM api 来创建 XML。但我的主要问题是我可以识别问题、答案和信息块的算法。你能给我一些想法吗?

4

1 回答 1

2

我曾经使用 JaxB 来解决这类问题。您创建了一个等效于您的 XML 的 Java 类。然后 JaxB 将该类的实例转换为 XML,反之亦然。

看看这个:

http://www.mkyong.com/java/jaxb-hello-world-example/

于 2013-06-28T18:09:57.773 回答