web-dev-qa-db-ja.com

SqlAlchemyでアップサートを行う方法

データベースに存在しないレコードがあり、既に存在する場合(プライマリキーが存在する場合)、フィールドを現在の状態に更新する必要があります。これはしばしば psert と呼ばれます。

次の不完全なコードスニペットは、何が機能するかを示していますが、過度に不格好なようです(特に列がもっと多い場合)。より良い/最良の方法は何ですか?

Base = declarative_base()
class Template(Base):
    __table= 'templates'
    id = Column(Integer, primary_key = True)
    name = Column(String(80), unique = True, index = True)
    template = Column(String(80), unique = True)
    description = Column(String(200))
    def __init__(self, Name, Template, Desc):
        self.name = Name
        self.template = Template
        self.description = Desc

def UpsertDefaultTemplate():
    sess = Session()
    desired_default = Template("default", "AABBCC", "This is the default template")
    try:
        q = sess.query(Template).filter_by(name = desiredDefault.name)
        existing_default = q.one()
    except sqlalchemy.orm.exc.NoResultFound:
        #default does not exist yet, so add it...
        sess.add(desired_default)
    else:
        #default already exists.  Make sure the values are what we want...
        assert isinstance(existing_default, Template)
        existing_default.name = desired_default.name
        existing_default.template = desired_default.template
        existing_default.description = desired_default.description
    sess.flush()

これを行うより良いまたはより冗長な方法はありますか?このような何かが素晴らしいだろう:

sess.upsert_this(desired_default, unique_key = "name")

unique_key kwargは明らかに不要です(ORMはこれを簡単に理解できるはずです)。SQLAlchemyが主キーでのみ動作する傾向があるという理由だけで追加しました。例: Session.merge が適用可能かどうか見てきましたが、これは主キーでのみ機能します。この場合は、この目的にはあまり役に立たない自動インクリメントIDです。

これのサンプルユースケースは、デフォルトの予想データをアップグレードした可能性のあるサーバーアプリケーションを起動する場合です。すなわち、このアップサートの同時実行の懸念はありません。

52
Russ

SQLAlchemyには「保存または更新」動作があり、最近のバージョンではsession.add、以前は個別のsession.saveorupdate呼び出し。これは「アップサート」ではありませんが、ニーズには十分かもしれません。

複数の一意のキーを持つクラスについて質問しているのは良いことです。私はこれがまさにこれを行うための単一の正しい方法がない理由だと信じています。主キーは一意のキーでもあります。一意の制約がなく、主キーのみが存在する場合、それは十分に単純な問題です。指定されたIDが存在しない場合、またはIDがNoneの場合、新しいレコードを作成します。それ以外の場合、既存のレコード内の他のすべてのフィールドをその主キーで更新します。

ただし、追加の一意の制約がある場合、その単純なアプローチには論理的な問題があります。オブジェクトを「アップサート」し、オブジェクトの主キーが既存のレコードと一致するが、別の一意の列がdifferentレコードと一致する場合、どうしますか?同様に、主キーが既存のレコードと一致せず、別の一意の列doesが既存のレコードと一致する場合、何ですか?あなたの特定の状況に対して正しい答えがあるかもしれませんが、一般的に私は単一の正しい答えはないと主張します。

これが、組み込みの「アップサート」操作がない理由です。アプリケーションは、特定の各ケースでこれが何を意味するかを定義する必要があります。

44
wberry

SQLAlchemyは、2つのメソッドon_conflict_do_update()およびon_conflict_do_nothing()ON CONFLICTをサポートします。

ドキュメント からのコピー:

from sqlalchemy.dialects.postgresql import insert

stmt = insert(my_table).values(user_email='[email protected]', data='inserted data')
stmt = stmt.on_conflict_do_update(
    index_elements=[my_table.c.user_email],
    index_where=my_table.c.user_email.like('%@gmail.com'),
    set_=dict(data=stmt.excluded.data)
)
conn.execute(stmt)
20
P.R.

「飛ぶ前に見る」アプローチを使用します。

# first get the object from the database if it exists
# we're guaranteed to only get one or zero results
# because we're filtering by primary key
switch_command = session.query(Switch_Command).\
    filter(Switch_Command.switch_id == switch.id).\
    filter(Switch_Command.command_id == command.id).first()

# If we didn't get anything, make one
if not switch_command:
    switch_command = Switch_Command(switch_id=switch.id, command_id=command.id)

# update the stuff we care about
switch_command.output = 'Hooray!'
switch_command.lastseen = datetime.datetime.utcnow()

session.add(switch_command)
# This will generate either an INSERT or UPDATE
# depending on whether we have a new object or not
session.commit()

利点は、これがdb-neutralであり、読みやすいことだと思います。欠点は、次のようなシナリオで潜在的な競合状態があることです:

  • switch_commandのdbをクエリしても見つからない
  • switch_commandを作成します
  • 別のプロセスまたはスレッドが、私たちのものと同じ主キーを持つswitch_commandを作成します
  • 私たちはswitch_commandをコミットしようとします
8
Ben

現在、SQLAlchemyは2つの便利な関数を提供しています on_conflict_do_nothing および on_conflict_do_update 。これらの関数は便利ですが、ORMインターフェイスから下位レベルのインターフェイスに切り替える必要があります- SQLAlchemy Core

これら2つの関数は、SQLAlchemyの構文を使用したアップサーティングをそれほど難しくはありませんが、これらの関数は、アップサーティングに対する完全な標準ソリューションを提供するにはほど遠いです。

私の一般的な使用例は、単一のSQLクエリ/セッション実行で大きな行の塊を挿入することです。通常、アップサーティングには2つの問題が発生します。

たとえば、これまで使用してきた高レベルのORM機能が欠落しています。 ORMオブジェクトは使用できませんが、挿入時にForeignKeysを提供する必要があります。

私は this を使用して、これらの問題の両方を処理するために記述した次の関数を使用しています。

def upsert(session, model, rows):
    table = model.__table__
    stmt = postgresql.insert(table)
    primary_keys = [key.name for key in inspect(table).primary_key]
    update_dict = {c.name: c for c in stmt.excluded if not c.primary_key}

    if not update_dict:
        raise ValueError("insert_or_update resulted in an empty update_dict")

    stmt = stmt.on_conflict_do_update(index_elements=primary_keys,
                                      set_=update_dict)

    seen = set()
    foreign_keys = {col.name: list(col.foreign_keys)[0].column for col in table.columns if col.foreign_keys}
    unique_constraints = [c for c in table.constraints if isinstance(c, UniqueConstraint)]
    def handle_foreignkeys_constraints(row):
        for c_name, c_value in foreign_keys.items():
            foreign_obj = row.pop(c_value.table.name, None)
            row[c_name] = getattr(foreign_obj, c_value.name) if foreign_obj else None

        for const in unique_constraints:
            unique = Tuple([const,] + [row[col.name] for col in const.columns])
            if unique in seen:
                return None
            seen.add(unique)

        return row

    rows = list(filter(None, (handle_foreignkeys_constraints(row) for row in rows)))
    session.execute(stmt, rows)
5
NirIzr

以下は、redshiftデータベースでうまく機能し、結合された主キー制約でも機能します。

[〜#〜] source [〜#〜]this

関数でSQLAlchemyエンジンを作成するために必要な変更はわずかdef start_engine()

from sqlalchemy import Column, Integer, Date ,Metadata
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.dialects.postgresql import insert
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy.dialects import postgresql

Base = declarative_base()

def start_engine():
    engine = create_engine(os.getenv('SQLALCHEMY_URI', 
    'postgresql://localhost:5432/upsert'))
     connect = engine.connect()
    meta = MetaData(bind=engine)
    meta.reflect(bind=engine)
    return engine


class DigitalSpend(Base):
    __table= 'digital_spend'
    report_date = Column(Date, nullable=False)
    day = Column(Date, nullable=False, primary_key=True)
    impressions = Column(Integer)
    conversions = Column(Integer)

    def __repr__(self):
        return str([getattr(self, c.name, None) for c in self.__table__.c])


def compile_query(query):
    compiler = query.compile if not hasattr(query, 'statement') else 
  query.statement.compile
    return compiler(dialect=postgresql.dialect())


def upsert(session, model, rows, as_of_date_col='report_date', no_update_cols=[]):
    table = model.__table__

    stmt = insert(table).values(rows)

    update_cols = [c.name for c in table.c
                   if c not in list(table.primary_key.columns)
                   and c.name not in no_update_cols]

    on_conflict_stmt = stmt.on_conflict_do_update(
        index_elements=table.primary_key.columns,
        set_={k: getattr(stmt.excluded, k) for k in update_cols},
        index_where=(getattr(model, as_of_date_col) < getattr(stmt.excluded, as_of_date_col))
        )

    print(compile_query(on_conflict_stmt))
    session.execute(on_conflict_stmt)


session = start_engine()
upsert(session, DigitalSpend, initial_rows, no_update_cols=['conversions'])
1

これは、sqlite3とpostgresで機能します。主キー制約の組み合わせで失敗する可能性がありますが、追加の一意の制約で失敗する可能性が最も高くなります。

    try:
        t = self._meta.tables[data['table']]
    except KeyError:
        self._log.error('table "%s" unknown', data['table'])
        return

    try:
        q = insert(t, values=data['values'])
        self._log.debug(q)
        self._db.execute(q)
    except IntegrityError:
        self._log.warning('integrity error')
        where_clause = [c.__eq__(data['values'][c.name]) for c in t.c if c.primary_key]
        update_dict = {c.name: data['values'][c.name] for c in t.c if not c.primary_key}
        q = update(t, values=update_dict).where(*where_clause)
        self._log.debug(q)
        self._db.execute(q)
    except Exception as e:
        self._log.error('%s: %s', t.name, e)
1
ThePsyjo

これにより、文字列名に基づいて基礎となるモデルにアクセスできます

def get_class_by_tablename(tablename):
  """Return class reference mapped to table.
  https://stackoverflow.com/questions/11668355/sqlalchemy-get-model-from-table-name-this-may-imply-appending-some-function-to
  :param tablename: String with name of table.
  :return: Class reference or None.
  """
  for c in Base._decl_class_registry.values():
    if hasattr(c, '__tablename__') and c.__table== tablename:
      return c


sqla_tbl = get_class_by_tablename(table_name)

def handle_upsert(record_dict, table):
    """
    handles updates when there are primary key conflicts

    """
    try:
        self.active_session().add(table(**record_dict))
    except:
        # Here we'll assume the error is caused by an integrity error
        # We do this because the error classes are passed from the
        # underlying package (pyodbc / sqllite) SQLAlchemy doesn't mask
        # them with it's own code - this should be updated to have
        # explicit error handling for each new db engine

        # <update>add explicit error handling for each db engine</update> 
        active_session.rollback()
        # Query for conflic class, use update method to change values based on dict
        c_tbl_primary_keys = [i.name for i in table.__table__.primary_key] # List of primary key col names
        c_tbl_cols = dict(sqla_tbl.__table__.columns) # String:Col Object crosswalk

        c_query_dict = {k:record_dict[k] for k in c_tbl_primary_keys if k in record_dict} # sub-dict from data of primary key:values
        c_oo_query_dict = {c_tbl_cols[k]:v for (k,v) in c_query_dict.items()} # col-object:query value for primary key cols

        c_target_record = session.query(sqla_tbl).filter(*[k==v for (k,v) in oo_query_dict.items()]).first()

        # apply new data values to the existing record
        for k, v in record_dict.items()
            setattr(c_target_record, k, v)
0
Schalton