1

我想从文本文件中读取行并根据单词之间的 Wu-Palmer 距离构建距离矩阵。例如:

           House    Grass   Boat   Cat
House       x        y       ..    ..
Grass       x1       y1      ..    ..
Boat        x2       y2      ..    ..
Cat         x3       y3      ..    ..

我想知道我是否可以在 python 中使用任何现有函数从文本文件中读取行并将这些行输出为距离矩阵的行和列?

4

1 回答 1

1

如果您的输入只是以空格分隔的单词,那么您可以像这样轻松地遍历它们:

words = set()
with open("input.txt", "r") as fd:
    for line in fd:
        words.update(line.split())

使用 aset可确保每个单词只记录一次 - 听起来这就是您所追求的。

如果您的输入是英文文本,那么事情会变得有点困难,因为您想要捕捉诸如“I'd”之类的东西 - 您还应该决定是否将连字符的单词(例如“part-time”)归类为单个单词 - 我的例子这里有,但很容易改变。尽管我不是它们的粉丝,但这是正则表达式实际上非常有用的地方:

import re
import string

non_word_re = re.compile(r"[^-\w']+")
words = set()
with open("input.txt", "r") as fd:
    for line in fd:
        words.update(i for i in non_word_re.split(line) if i[0] in string.letters)

这将创建一个set单词,其中一组字符是由集合中的一个或多个组成的任何内容,[a-zA-Z0-9_-']并且第一个字符是字母。

在此之后,您可以轻松计算每对单词之间的距离:

all_distances = {}
for word in words:
    all_distances[word] = dict((i, calculate_distance(word, i)) for i in words)

可能有比这里的嵌套字典更干净的数据结构,但它足够简单,我认为这就足够了。

最后,您可以输出一个制表符分隔的矩阵,如下所示:

with open("output.txt", "w") as fd:
    fd.write("\t" + "\t".join(sorted(all_distances.keys())) + "\n")
    for word1, distances in sorted(all_distances.iteritems()):
        fd.write(word1 + "\t" + "\t".join(i[1] for i in sorted(distances.iteritems())))

如果您想要更接近格式良好的输出矩阵(即每列根据其内容自动调整大小),那么这本身仍然不难,但它有点繁琐并且需要更多的代码。

顺便说一句,如果您想以 CSV 格式读取或写入文件,请查看 Python csv模块,它会为您处理繁琐的事情,例如引用。

那是你所追求的吗?

于 2013-01-19T13:33:13.043 回答