我从pdf文档中提取了文本。..我想使用java提取其中的一些特定字段..
文字部分..
US00RE44697E
(i9) 美国
(12) 重新颁发的专利 (10) 专利号:RE44,697 E
Jones 等人。(45) 重新颁发专利日期:2014 年 1 月 7 日
(54) 共享
内存互连的加密
处理器 (75) 发明人:David E.Jones, Ottawa (CA);Cormac
MO'Connell, Carp (CA)
(73) 受让人:Mosaid Technologies Incorporated,
Ottawa, Ontario (CA)
(21) 申请号:13/603,137
(22) 提交日期:2012 年 9 月 4 日
相关美国专利文件
再版的:
(64) 专利号:
颁发:
Appl。编号:
归档:
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日
(51) 国际 CI。
G06F 21/00 (2013.01)
(52) 美国 CI。
USPC .............713/189;713/190;713/193;380/28;
380/33;380/52
(58) 分类检索领域
无
现在我的任务是从中提取字段并提供给字符串..就是
文本(10) Patent Number: RE44,697 E
将被提取为String pat_no= " RE44,697 E"
文本(54) ENCRYPTIONPROCESSORWITH SHARED
MEMORY INTERCONNECT
将被提取为String title= "ENCRYPTIONPROCESSORWITH SHARED
MEMORY INTERCONNECT"
极其不规则的文本块
(64) 专利号:
颁发:
Appl. 编号:
归档:
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日
必须提取为
String pat_no_org = "6,088,800";
String issued = "jul.11,2000"
String filed = "feb 27 ,1998"
......
像这样..
我的作品
首先我使用了 string.split , string.substring , string,indexof 甚至 apache string utils ,但没有帮助..因为文本分散,上述方法没有帮助..我也尝试过正则表达式,但因为我非常很弱,我不会编程。
请告诉我如何使用 java 实现我的目标?