0

我有一个 wikipedia xml 转储文件,该文件已删除所有不是实际文本的标签和内容。我正在尝试通过整个转储自动解析以在 python 中提取格式良好的句子。文本中的一个示例是:

{{Nihongo|'''''Barefoot Gen'''''|はだしのゲン|Hadashi no Gen}} 是 [[Keiji Nakazawa]] 的 [[Japan]]ese [[manga]] 系列。该系列大致基于中泽本人作为广岛幸存者的经历,于 1945 年在 [[广岛]]、[[日本]] 及其周边地区开始,六岁的男孩 [[中冈元]] 与他的家人住在那里。

这就是我现在所拥有的:

nonalphanum = "~`!@#$%^&*()_+=-\][|}{;:\"/.,?><"

class sentence:

#Instantiation function
def __init__( self, wiki_str ):
    self.words = wiki_str.translate( None, nonalphanum ).split()
    self.size = len( self.words )
    print( self.words, self.size )

我的输出是:

(["日本语'''''赤脚", "Gen'''''\xe3\x81\xaf\xe3\x81\xa0\xe3\x81\x97\xe3\x81\xae\xe3\x82\xb2\ xe3\x83\xb3Hadashi", 'no', 'Gen', 'is', 'a', 'Japanese', 'manga', 'series', 'by', 'Keiji', 'Nakazawa', 'Loosely' , '基础', 'on', "Naka​​zawa's", 'own', 'experiences', 'as', 'a', 'Hiroshima', 'survivor', 'the', 'series', 'begins', ' in','1945','in','and','around','广岛','Japan','where','the','六岁','boy','Gen','Nakaoka' , '生活', '与', '他的', '家庭'],42)

我想要的是

Nihongo Barefoot Gen Hadashi no Gen 是中泽敬司的日本漫画系列。该系列大致基于中泽本人作为广岛幸存者的经历,于 1945 年在日本广岛及其周边地区开始,六岁的男孩中冈元与他的家人住在那里。

感谢您的任何帮助!

4

0 回答 0