python - Python - 查询倒排索引

Question

这是我关于 SO 的第一篇文章，如果我的问题有点琐碎，我提前道歉，我对编程世界比较陌生，我选择 python 作为我的第一个“严肃”OOP 语言。我通过 SO 档案进行了搜索，但我找不到任何与我的完全相关的问题。好的，长话短说，问题是：

我正在研究倒排索引。我在网上找到了一些教程和提示，我做了以下事情：

类 Document 用于词干词干并通过 finditer 函数返回它们的开始和结束位置。
类 Inverted_Index 获取文档集合（列表中的列表），对它们进行标记并将它们以如下形式放入倒排索引中

{'word':{document_id:(start_pos, end_pos)}}

喜欢 {'cloud': {0: [(5, 10)]}, 'document': {1: [(11, 19)], 2: [(22, 30)]} ...}。（我在 SO 主题的帮助下做了 document_id，遍历了文档的枚举集合。关于嵌套字典，我很业余地制作了它们，例如：

if nested_dict not in existing_dict:
    existing_dict[nested_dict] = {}

当我阅读堆栈 owerflow 时，我注意到“defaultdict”数据类型是非常好的方法，但我还没有想出“集合”模块。）。

回到正轨：在 Inverted_Index 内部，我做了一个 Query 方法（只是 OR 运算符的一个版本），它将字符串作为查询，如果该字符串与我的倒排索引中的键/术语匹配，则返回 document_id 的起点和终点一个术语，例如：

[(1, [(0, 4), (11, 19)]), ...]

在那之后，我……卡住了。我想做一个查询输出，打印出文档中找到的单词及其环境，但我不知道如何连接查询方法的结果（带有开始和结束位置的 document_id）和倒排索引，我不知道不知道如何在她的环境中突出显示匹配的查询。正因为如此，我做了起点和终点，但我不知道如何在 python 中强调它？大胆吗？

我想到了类似的结果：

###################
您的查询：'chocolate pudding'
结果：
########
在具有 id 的文档中：1
yaddi yaddi yadda Chocolate bla bla bla布丁
巧克力 bla bla bla 布丁 yaddi yaddi yadda bla

我的意思是，我正在阅读http://docs.python.org/2/library/string.html#string.center并认为在同一列中对齐找到的单词/查询会起到欺骗作用。但我不知道如何到达那里，所以任何类型的提示都会很棒，因为我没有被困在我的程序中，因为我被困在理解 python 背后的逻辑，在这种情况下，教程不会做正义。（是的，我有一些 python 书籍，但是他们对这种事情有扩展的方法，可能考虑到它不适合初学者，但我不知道从哪里开始，我可以使用什么程序。问题是，我们在大学里学习语言理论和国际关系理论，但我们在实践中做了一些事情。）。

谢谢！

对这个我生命中的故事结束感到抱歉：D

我忘了，一个不使这个话题含糊不清的代码：

class inverted_index(dict):

    def __init__(self,collection_of_docs):
        for doc_id,document in enumerate(collection_of_docs):
            for word,start,end in document.tokenize(): #form: [('sky', 0, 4)]
                if word not in self:
                    self[word]={}
                if doc_id not in self[word]:
                    self[word][doc_id]=[]
                self[word][doc_id].append((start,end))


    def query(self,query_string):
        result={}
        for query_term in re.findall(r'\w+',query_string.lower(),re.UNICODE):
            for doc_id in self.get(query_term,{}):
                if doc_id not in result:
                    result[doc_id]=self[query_term][doc_id]
                else:
                    result[doc_id]=result[doc_id]+self[query_term][doc_id]
        return sorted(result.items(),key=lambda e:-len(e[1]))

score 1 · Accepted Answer

您将需要在文本上使用“get_with_surroundings”方法。

它可能看起来像

class inverted_index(dict):
    def __init__(self,collection_of_docs):
        self.collection_of_docs = collection_of_docs #to store those
        # ... rest of your code

    def get_with_surroundings(document_id, position_tuple):
        start, end = position_tuple
        return self.collection_of_docs[document_id].text[start-10:end+10]

+10 和 -10 可能会根据您需要显示多少环境而改变。我假设您的 Document 类具有一些“文本”属性，该属性是该文档的纯 Python 字符串。

使用您的查询结果之一调用此方法将或多或少地归档您需要的内容。

这如何在 Python 中打印粗体文本？可能对python中的粗体文本有所帮助。

python - Python - 查询倒排索引

1 回答 1

Related

Reference