1

所以我构建了一个句子标记器,它将段落分成句子、单词和字符……每一个都是一种数据类型。但是句子系统是一个两阶段系统,因为像'。. 。把它扔掉,感觉它一次只写一个字母,但如果它是 '...' 没有空格,它就可以正常工作。

所以输出有点拼接,但如果我能对它做一些二次处理,它会完美地工作。所以这就是我的问题所在......我不知道如何编写一个系统,允许我将每个没有结束句标点符号的句子附加到前一个句子而不会丢失任何东西。

以下是输出的示例以及我需要它的示例:

一些被拼接的句子...

并有一个延续

这不能被美国混淆

在那里面

最后一句话...

一个缩写结束了这句话!

因此,不以正常句尾分隔符结尾的句子对象,即“.”、“?”、“!” 需要附加到下一个句子...直到有一个带有真正句尾分隔符的句子。让这变得艰难的另一件事是'。. 。算作一个延续,而不是一个句子的结尾。所以这也需要附加。

这就是它需要的样子:

一些被拼接的句子......并且有一个延续。

这不能被美国混淆

在最后一句话中……一个缩写结束了这句话!

这是我正在使用的代码:

 last = []  
 merge = []
 for s in stream:
        if last:
           old = last.pop()
           if '.' not in old.as_utf8 and '?' not in old.as_utf8 and '!' not in old.as_utf8:

               new = old + s 
               merge.append(new)
           else:
               merge.append(s)
          last.append(s)

所以这个方法有一些问题......

  1. 它只将 1 个句子附加到另一个句子,但如果需要添加 2 个或 3 个,它不会继续附加。

  2. 如果它没有任何标点符号,它会删除第一句话。

  3. 它不处理'。. 。作为延续。我知道我没有为此写任何东西,那是因为我不完全确定如何解决这个问题,句子以缩写结尾,因为我可以数出有多少“。” 在句子中,但它真的会被“美国”抛弃,因为这算作 3 个句点。

所以我已经__add__为句子类编写了一个方法,所以你可以这样做sentence + sentence,这可以作为一种将一个附加到另一个的方法。

任何帮助将不胜感激。如果有任何不清楚的地方,请告诉我,我会尽我最大的努力去实现它。

4

3 回答 3

2

这种“算法”试图在不依赖行结尾的情况下理解输入,因此它应该与某些输入正常工作,例如

born in the U.
S.A.

该代码有助于将其集成到状态机中——循环只记住它的当前短语并将完成的短语“推”到一个列表中,并一次吞下一个单词。在空格上分割是好的。

请注意案例#5中的歧义:无法可靠地解决(并且行尾也可能存在这种歧义。也许将两者结合起来......)

# Sample decoded data
decoded = [ 'Some', 'sentence', 'that', 'is', 'spliced.', '.', '.',
    'and', 'has', 'a', 'continuation.',
    'this', 'cannot', 'be', 'confused', 'by', 'U.', 'S.', 'A.', 'or', 'U.S.A.',
    'In', 'that', 'last', 'sentence...',
    'an', 'abbreviation', 'ended', 'the', 'sentence!' ]

# List of phrases
phrases = []

# Current phrase
phrase    = ''

while decoded:
    word = decoded.pop(0)
    # Possibilities:
    # 1. phrase has no terminator. Then we surely add word to phrase.
    if not phrase[-1:] in ('.', '?', '!'):
        phrase += ('' if '' == phrase else ' ') + word
        continue
    # 2. There was a terminator. Which?
    #    Say phrase is dot-terminated...
    if '.' == phrase[-1:]:
        # BUT it is terminated by several dots.
        if '..' == phrase[-2:]:
            if '.' == word:
                phrase += '.'
            else:
                phrase += ' ' + word
            continue
        # ...and word is dot-terminated. "by U." and "S.", or "the." and ".".
        if '.' == word[-1:]:
            phrase += word
            continue
        # Do we have an abbreviation?
        if len(phrase) > 3:
            if '.' == phrase[-3:-2]:
                # 5. We have an ambiguity, we solve using capitals.
                if word[:1].upper() == word[:1]:
                    phrases.append(phrase)
                    phrase = word
                    continue
                phrase += ' ' + word
                continue
        # Something else. Then phrase is completed and restarted.
        phrases.append(phrase)
        phrase = word
        continue
    # 3. Another terminator.
        phrases.append(phrase)
        phrase = word
        continue

phrases.append(phrase)

for p in phrases:
    print ">> " + p

输出:

>> Some sentence that is spliced... and has a continuation.
>> this cannot be confused by U.S.A. or U.S.A.
>> In that last sentence... an abbreviation ended the sentence!
于 2013-06-21T22:51:25.863 回答
1

好的,这是一些工作代码。这大致是你需要的吗?我对它还不太满意,它看起来有点丑恕我直言,但我想知道它是否是正确的方向。

words = '''Some sentence that is spliced...
and has a continuation.
this cannot be confused by U.S.A.
In that
last sentence... 
an abbreviation ended the sentence!'''.split()

def format_sentence(words):
    output = []

    for word in words:
        if word.endswith('...') or not word.endswith('.'):
            output.append(word)
            output.append(' ')
        elif word.endswith('.'):
            output.append(word)
            output.append('\n')
        else:
            raise ValueError('Unexpected result from word: %r' % word)

    return ''.join(output)

print format_sentence(words)

输出:

Some sentence that is spliced... and has a continuation.
this cannot be confused by U.S.A.
In that last sentence...  an abbreviation ended the sentence!
于 2013-06-21T22:36:18.133 回答
0

这是我最终使用的代码,效果很好……这主要基于 WoLpH 代码,非常感谢!

    output = stream[:1]
    for line in stream:
            if output[-1].as_utf8.replace(' ', '').endswith('...'):       
                output[-1] += line

            elif not output[-1].as_utf8.replace(' ', '').endswith('.') and not output[-1].as_utf8.replace(' ', '').endswith('?') and not output[-1].as_utf8.replace(' ', '').endswith('!') and not output[-1].as_utf8.replace(' ', '').endswith('"') and not output[-1].as_utf8.replace(' ', '')[-1].isdigit():
                if output[-1] != line:
                    output[-1] += line

            else:
                if output[-1] != line:
                    output.append(line)

    return output
于 2013-06-24T20:14:50.133 回答