-2

我无法在 python 中为倒排索引返回正确的结果。我试图在变量“strlist”中加载一个字符串列表,然后用我的反向索引遍历字符串以返回它出现的单词+。这是我到目前为止所做的:

def inverseIndex(strlist):
  d={}
  for x in range(len(strlist)):
    for y in strlist[x].split():
      for index, word in set(enumerate([y])):
        if word in d:
          d=d.update(index)
        else:
          d._setitem_(index,word)
        break
      break
    break
  return d

现在当我运行 inverseIndex(strlist)

它返回的只是{0:'This'}我想要的是将所有单词映射'strlist'到集合中的字典d

我最初的方法是错误的吗?我在 if/else 中绊倒了吗?非常感谢任何和所有帮助。为我指明正确的方向。

4

2 回答 2

2

根据您所说的,我认为您正在尝试获取如下数据:

input = ["hello world", "foo bar", "red cat"]
data_wanted = {
    "foo" : 1,
    "hello" : 0,
    "cat" : 2,
    "world" : 0,
    "red" : 2
    "bar" : 1
}

因此,您应该做的是将单词作为键添加到字典中,并将它们的值作为strlist它们所在的子字符串的索引。

def locateWords(strlist):
d = {}
for i, substr in enumerate(strlist):   # gives you the index and the item itself
    for word in substr.split()
        d[word] = i
return d

如果单词出现在多个字符串中strlist,则应将代码更改为以下内容:

def locateWords(strlist):
d = {}
for i, substr in enumerate(strlist):
    for word in substr.split()
        if word not in d:
            d[word] = [i]
        else:
            d[word].append(i)
return d

这会将值更改为列表,其中包含strlist包含该单词的子字符串的索引。

解释了您的一些代码问题

  1. {}不是集合,而是字典。
  2. break强制循环立即终止——你不想提前结束循环,因为你还有数据要处理。
  3. d.update(index)会给你一个TypeError: 'int' object is not iterable。这个方法实际上接受一个可迭代对象并用它更新字典。通常你会为此使用一个元组列表[("foo",1), ("hello",0)]:它只是将数据添加到字典中。
  4. 您通常不想使用d.__setitem__(无论如何您都输入错误)。你只需使用d[key] = value.
  5. 您可以使用“for each”样式循环进行迭代,就像我上面的代码所示。循环范围意味着您正在循环索引。(不完全是一个问题,但如果你不小心正确使用索引,它可能会导致额外的错误)。

看起来您来自另一种编程语言,其中大括号表示集合,并且有一个结束控制块的关键字(如if, fi)。刚开始时很容易混淆语法 - 但如果您在运行代码时遇到问题,请查看您获得的异常并在网络上搜索它们!

PS我不知道你为什么想要一套——如果有重复,你可能想知道它们的所有位置,而不仅仅是第一个或最后一个或介于两者之间的任何位置。只是我的 0.02 美元。

于 2013-07-09T18:22:12.867 回答
0

break不是块结束标记;它的意思是“如果你点击这行代码,立即退出循环”。您可能不想要所有这些break陈述。

我不确定您认为该update方法的作用。

d.update(index)

将尝试将其index视为一个dict或一系列键值对,并将所有映射添加indexd. 由于index是一个数字,这似乎不是您期望update做的。此外,updatereturnsNone是 Python 中不返回任何内容的等价物,因此您可能不想将其值分配给d.

我不确定你期望什么

for index, word in set(enumerate([y])):

去做。让我们回顾一下它的作用。[y]创建一个 1 元素列表,其唯一元素是y. enumerate([y])然后将返回一个迭代器,产生一个元素,元组(0, y)set(enumerate([y]))然后将从该迭代器中获取所有项目(因此只有一个项目)并制作一个包含这些项目的集合。最后,for index, word in set(enumerate([y])):将遍历该单项集,使用index == 0and执行单个循环迭代word == y。这可能不是你想要做的。

Python调用特殊方法(__setitem__每边有两个下划线)来实现元素赋值。

d.__setitem__(index, word)

最好写成

d[index] = word

如果你想迭代,那么你可以直接迭代strlist而不是使用。range(len(strlist))strlist

  for x in range(len(strlist)):
    for y in strlist[x].split():

相当于

  for string in strlist:
    for y in string.split():

因为遍历 strlist 将给出 strlist 的项目。

我希望这会有所帮助。

于 2013-07-09T18:11:16.260 回答