python - PonyORM：在不知道哪些项目已经存在的情况下，将新项目添加到小马数据库的最有效方法是什么？

Question

如果这是一个明显的问题，请原谅我，但我对小马和数据库一般来说是新手，并且没有找到回答这个问题的文档的正确部分。

我正在尝试创建一个包含公司以及这些公司设有办事处的位置的数据库。这是一个多对多的关系，因为每个公司位于多个位置，并且每个位置都可以托管多个公司。我这样定义我的实体：

from pony import orm

class Company(db.Entity):
    '''A company entry in database'''
    name = orm.PrimaryKey(str)
    locations = orm.Set('Location')

class Location(db.Entity):
    '''A location for a company'''
    name = orm.PrimaryKey(str)
    companies = orm.Set('Company')

理想情况下，我希望能够编写一个函数，将公司添加到数据库中，同时添加该公司存在的位置列表，同时确保添加新的位置实例（如果它们尚不存在）。我可以很快想到两种方法。

首先是尝试输入该位置，即使它存在并处理异常：

@orm.db_session
def add_company(name, locations):
    loc_entities = []
    for l in locations:
        try:
            loc = Location[l]
        except orm.core.ObjectNotFound:
            loc = Location(name=l)
        else:
            loc_entities.append(loc)
    comp = Company(name=name, locations=loc_entities)

其次是查询数据库并询问位置是否存在：

@orm.db_session
def add_company2(name, locations):
    old_loc_entities = orm.select(l for l in Location if l.name in locations)[:]
    old_locations = [l.name for l in old_loc_entities]
    new_locations = set(locations) - (set(locations) & set(old_locations))
    loc_entities = [Location(name=l) for l in new_locations] + old_loc_entities
    comp = Company(name=name, locations=loc_entities)

在这两个中，我猜想更 Pythonic 的方法是简单地处理异常，但这会遇到 N+1 问题吗？我注意到通过使用名称作为主键，我每次使用索引访问实体时都会进行查询。当我只是让小马选择顺序 ID 时，我似乎不需要查询。我还没有用任何大型数据集对此进行测试，所以我还没有进行基准测试。

score 5 · Accepted Answer

我注意到通过使用名称作为主键，我每次使用索引访问实体时都会进行查询。当我只是让小马选择顺序 ID 时，我似乎不需要查询。

在内部，Pony 以与字符串主键相同的方式缓存顺序主键，所以我认为应该没有区别。每个db_session都有单独的缓存（称为“身份映射”）。读取对象后，通过同一对象中的主键（或任何其他唯一键）进行的任何访问db_session都应直接从身份映射中返回相同的对象，而无需发出新的查询。结束后db_session，同一键的另一个访问将发出一个新的查询，因为该对象可以在数据库中被并发事务修改。

关于您的方法，我认为它们都是有效的。如果一家公司只有几个位置（例如，大约十个），我会使用第一种方法，因为它对我来说感觉更像 Python。确实会导致N+1查询，但是通过主键检索对象的查询对于服务器来说是非常快速和容易执行的。通过使用一个get方法，代码可以更紧凑地表达：

@orm.db_session
def add_company(name, locations):
    loc_entities = [Location.get(name=l) or Location(name=l)
                    for l in locations]
    comp = Company(name=name, locations=loc_entities)

使用单个查询检索所有现有位置的第二种方法对我来说似乎是一种过早的优化，但如果您每秒创建数百个公司，并且每个公司都有数百个位置，则可能会使用它。

score 4 · Accepted Answer

我知道这是“获取或创建”模式，无论 ORM 或语言如何，都必须实现它。

这是我对 Pony 的“获取或创建”。

class GetMixin():
    @classmethod
    def get_or_create(cls, params):
        o = cls.get(**params)
        if o:
            return o
        return cls(**params)


class Location(db.Entity, GetMixin):
    '''A location for a company'''
    name = orm.PrimaryKey(str)
    companies = orm.Set('Company')

Mixin 在文档中进行了解释。

然后您的代码将如下所示：

@orm.db_session
def add_company(name, locations):
    loc_entities = [Location.get_or_create(name=l) for l in locations]
    comp = Company(name=name, locations=loc_entities)

python - PonyORM：在不知道哪些项目已经存在的情况下，将新项目添加到小马数据库的最有效方法是什么？

2 回答 2

Related

Reference