python - Python中的倒排索引未返回所需的结果

Question

我无法在 python 中为倒排索引返回正确的结果。我试图在变量“strlist”中加载一个字符串列表，然后用我的反向索引遍历字符串以返回它出现的单词+。这是我到目前为止所做的：

def inverseIndex(strlist):
  d={}
  for x in range(len(strlist)):
    for y in strlist[x].split():
      for index, word in set(enumerate([y])):
        if word in d:
          d=d.update(index)
        else:
          d._setitem_(index,word)
        break
      break
    break
  return d

现在当我运行 inverseIndex(strlist)

它返回的只是{0:'This'}我想要的是将所有单词映射'strlist'到集合中的字典d。

我最初的方法是错误的吗？我在 if/else 中绊倒了吗？非常感谢任何和所有帮助。为我指明正确的方向。

score 2 · Accepted Answer

根据您所说的，我认为您正在尝试获取如下数据：

input = ["hello world", "foo bar", "red cat"]
data_wanted = {
    "foo" : 1,
    "hello" : 0,
    "cat" : 2,
    "world" : 0,
    "red" : 2
    "bar" : 1
}

因此，您应该做的是将单词作为键添加到字典中，并将它们的值作为strlist它们所在的子字符串的索引。

def locateWords(strlist):
d = {}
for i, substr in enumerate(strlist):   # gives you the index and the item itself
    for word in substr.split()
        d[word] = i
return d

如果单词出现在多个字符串中strlist，则应将代码更改为以下内容：

def locateWords(strlist):
d = {}
for i, substr in enumerate(strlist):
    for word in substr.split()
        if word not in d:
            d[word] = [i]
        else:
            d[word].append(i)
return d

这会将值更改为列表，其中包含strlist包含该单词的子字符串的索引。

解释了您的一些代码问题

{}不是集合，而是字典。
break强制循环立即终止——你不想提前结束循环，因为你还有数据要处理。
d.update(index)会给你一个TypeError: 'int' object is not iterable。这个方法实际上接受一个可迭代对象并用它更新字典。通常你会为此使用一个元组列表[("foo",1), ("hello",0)]：它只是将数据添加到字典中。
您通常不想使用d.__setitem__（无论如何您都输入错误）。你只需使用d[key] = value.
您可以使用“for each”样式循环进行迭代，就像我上面的代码所示。循环范围意味着您正在循环索引。（不完全是一个问题，但如果你不小心正确使用索引，它可能会导致额外的错误）。

看起来您来自另一种编程语言，其中大括号表示集合，并且有一个结束控制块的关键字（如if, fi）。刚开始时很容易混淆语法 - 但如果您在运行代码时遇到问题，请查看您获得的异常并在网络上搜索它们！

PS我不知道你为什么想要一套——如果有重复，你可能想知道它们的所有位置，而不仅仅是第一个或最后一个或介于两者之间的任何位置。只是我的 0.02 美元。

score 0 · Accepted Answer

break不是块结束标记；它的意思是“如果你点击这行代码，立即退出循环”。您可能不想要所有这些break陈述。

我不确定您认为该update方法的作用。

d.update(index)

将尝试将其index视为一个dict或一系列键值对，并将所有映射添加index到d. 由于index是一个数字，这似乎不是您期望update做的。此外，updatereturnsNone是 Python 中不返回任何内容的等价物，因此您可能不想将其值分配给d.

我不确定你期望什么

for index, word in set(enumerate([y])):

去做。让我们回顾一下它的作用。[y]创建一个 1 元素列表，其唯一元素是y. enumerate([y])然后将返回一个迭代器，产生一个元素，元组(0, y)。set(enumerate([y]))然后将从该迭代器中获取所有项目（因此只有一个项目）并制作一个包含这些项目的集合。最后，for index, word in set(enumerate([y])):将遍历该单项集，使用index == 0and执行单个循环迭代word == y。这可能不是你想要做的。

Python调用特殊方法（__setitem__每边有两个下划线）来实现元素赋值。

d.__setitem__(index, word)

最好写成

d[index] = word

如果你想迭代，那么你可以直接迭代strlist而不是使用。range(len(strlist))strlist

  for x in range(len(strlist)):
    for y in strlist[x].split():

相当于

  for string in strlist:
    for y in string.split():

因为遍历 strlist 将给出 strlist 的项目。

我希望这会有所帮助。

python - Python中的倒排索引未返回所需的结果

2 回答 2

解释了您的一些代码问题

Related

Reference