web-dev-qa-db-ja.com

python pandas sqlalchemyを使用したto_sql:MS SQLへのエクスポートを高速化する方法は?

約155,000行、12列のデータフレームがあります。 dataframe.to_csvを使用してcsvにエクスポートすると、出力は11MBのファイルになります(これはすぐに作成されます)。

ただし、to_sqlメソッドを使用してMicrosoft SQL Serverにエクスポートすると、5〜6分かかります。テキストの列はありません。int、float、bool、datesのみです。 ODBCドライバがnvarchar(max)を設定し、これによりデータ転送が遅くなる場合がありますが、ここでは当てはまりません。

エクスポートプロセスをスピードアップする方法に関する提案はありますか? 11 MBのデータをエクスポートするのに6分かかると、ODBC接続が実質的に使用できなくなります。

ありがとう!

私のコードは:

import pandas as pd
from sqlalchemy import create_engine, MetaData, Table, select
ServerName = "myserver"
Database = "mydatabase"
TableName = "mytable"

engine = create_engine('mssql+pyodbc://' + ServerName + '/' + Database)
conn = engine.connect()

metadata = MetaData(conn)

my_data_frame.to_sql(TableName,engine)
24

DataFrame.to_sql メソッドは、ODBCコネクターへの挿入ステートメントを生成し、ODBCコネクターによって通常の挿入として扱われます。

これが遅い場合、パンダのせいではありません。

DataFrame.to_sql メソッドの出力をファイルに保存し、ODBCコネクタを介してそのファイルを再生すると、同じ時間がかかります。

データをデータベースに一括インポートする適切な方法は、csvファイルを生成してから、loadコマンドを使用することです。これは、SQLデータベースのMSフレーバーでは BULK INSERT と呼ばれます。

例えば:

BULK INSERT mydatabase.myschema.mytable
FROM 'mydatadump.csv';

構文リファレンスは次のとおりです。

BULK INSERT 
   [ database_name . [ schema_name ] . | schema_name . ] [ table_name | view_name ] 
      FROM 'data_file' 
     [ WITH 
    ( 
   [ [ , ] BATCHSIZE = batch_size ] 
   [ [ , ] CHECK_CONSTRAINTS ] 
   [ [ , ] CODEPAGE = { 'ACP' | 'OEM' | 'RAW' | 'code_page' } ] 
   [ [ , ] DATAFILETYPE = 
      { 'char' | 'native'| 'widechar' | 'widenative' } ] 
   [ [ , ] FIELDTERMINATOR = 'field_terminator' ] 
   [ [ , ] FIRSTROW = first_row ] 
   [ [ , ] FIRE_TRIGGERS ] 
   [ [ , ] FORMATFILE = 'format_file_path' ] 
   [ [ , ] KEEPIDENTITY ] 
   [ [ , ] KEEPNULLS ] 
   [ [ , ] KILOBYTES_PER_BATCH = kilobytes_per_batch ] 
   [ [ , ] LASTROW = last_row ] 
   [ [ , ] MAXERRORS = max_errors ] 
   [ [ , ] ORDER ( { column [ ASC | DESC ] } [ ,...n ] ) ] 
   [ [ , ] ROWS_PER_BATCH = rows_per_batch ] 
   [ [ , ] ROWTERMINATOR = 'row_terminator' ] 
   [ [ , ] TABLOCK ] 
   [ [ , ] ERRORFILE = 'file_name' ] 
    )] 
15
firelynx

私は最近同じ問題を抱えており、他の人にこれに対する答えを追加したいと思います。 _to_sql_は、すべての行に対してINSERTクエリを送信するように見えるため、非常に遅くなります。ただし、_0.24.0_があるため、pandas.to_sql()methodパラメータがあり、独自の挿入関数を定義するか、_method='multi'_を使用してpandas単一のINSERTクエリで複数の行を渡すため、非常に高速になります。

データベースにはパラメータ制限がある場合があることに注意してください。その場合、チャンクサイズも定義する必要があります。

したがって、ソリューションは次のようになります。

_my_data_frame.to_sql(TableName, engine, chunksize=<yourParameterLimit>, method='multi')
_

データベースパラメータの制限がわからない場合は、chunksizeパラメータなしで試してください。実行されるか、制限を知らせるエラーが表示されます。

11
NemesisMF

ネイティブDBインポートコマンドを使用するため、 d6tstackfast pandas)を含む を使用できます。これは、MS SQL、Postgres、およびMYSQLをサポートします

uri_psql = 'postgresql+psycopg2://usr:pwd@localhost/db'
d6tstack.utils.pd_to_psql(df, uri_psql, 'table')
uri_mssql = 'mssql+pymssql://usr:pwd@localhost/db'
d6tstack.utils.pd_to_mssql(df, uri_mssql, 'table', 'schema') # experimental

データスキーマが変更された複数のCSVをインポートする場合や、pandasで前処理する場合も同様です。dbに書き込む前に、下の examples notebook を参照してください)

d6tstack.combine_csv.CombinerCSV(glob.glob('*.csv'), 
    apply_after_read=apply_fun).to_psql_combine(uri_psql, 'table')
3
citynorman

これが誰かを助けるなら、この問題の私の解決策は以下です。私が読んだことから、pandas tosqlメソッドは一度に1つのレコードをロードします。

毎回1行をコミットする代わりに、1000行をロードしてそのトランザクションをコミットする一括挿入ステートメントを作成できます。これにより、速度が大幅に向上します。

import pandas as pd
from sqlalchemy import create_engine
import pymssql
import os

connect_string  = [your connection string]
engine = create_engine(connect_string,echo=False)
connection = engine.raw_connection()
cursor = connection.cursor()

def load_data(report_name):
    # my report_name variable is also my sql server table name so I use that variable to create table name string
    sql_table_name = 'AR_'+str(report_name)
    global chunk # to QC chunks that fail for some reason
    for chunk in pd.read_csv(report_full_path_new,chunksize=1000):
        chunk.replace('\'','\'\'',inplace=True,regex=True) #replace single quotes in data with double single quotes to escape it in mysql
        chunk.fillna('NULL',inplace=True)

        my_data = str(chunk.to_records(index=False).tolist()) # convert data to string 
        my_data = my_data[1:-1] # clean up the ends
        my_data = my_data.replace('\"','\'').replace('\'NULL\'','NULL') #convert blanks to NULLS for mysql
        sql_table_name = [your sql server table name]

        sql = """
        INSERT INTO {0} 
        VALUES {1}

         """.format(sql_table_name,my_data)

        cursor.execute(sql)
        # you must call commit() to persist your data if you don't set autocommit to True
        connection.commit()
2
Joe

これを使用できます:高速化するのは、pandas to_sqlmethodパラメータです。このヘルプがお役に立てば幸いです。

私の経験におけるこの結果は、無限の時間から8秒まででした。


df = pd.read_csv('test.csv')

conn = create_engine(<connection_string>)

start_time = time.time()
df.to_sql('table_name', conn, method='multi',index=False, if_exists='replace')
print("--- %s seconds ---" % (time.time() - start_time))
1
glenn6452

私は次の行で時間とメモリ(120MB CSVからロードされたDataFrameに割り当てられた18GB以上)を使い果たしました:

df.to_sql('my_table', engine, if_exists='replace', method='multi', dtype={"text_field": db.String(64), "text_field2": db.String(128), "intfield1": db.Integer(), "intfield2": db.Integer(), "floatfield": db.Float()})

以下は、挿入のインポートと進行状況の追跡を同時に行うのに役立つコードです。

import sqlalchemy as db
engine = db.create_engine('mysql://user:password@localhost:3306/database_name', echo=False)
connection = engine.connect()
metadata = db.MetaData()

my_table = db.Table('my_table', metadata,
              db.Column('text_field', db.String(64), index=True),
              db.Column('text_field2', db.String(128), index=True),
              db.Column('intfield1', db.Integer()),
              db.Column('intfield2', db.Integer()),
              db.Column('floatfield', db.Float())
             )
metadata.create_all(engine)
kw_dict = df.reset_index().sort_values(by="intfield2", ascending=False).to_dict(orient="records")

batch_size=10000
for batch_start in range(0, len(kw_dict), batch_size):
    print("Inserting {}-{}".format(batch_start, batch_start + batch_size))
    connection.execute(my_table.insert(), kw_dict[batch_start:batch_start + batch_size])
0
anatoly

この回答に基づいて- Aseem

Copy_fromメソッドを使用して、カーソルオブジェクトを使用したバルクロードをシミュレートできます。これはPostgresでテストされています。DBで試してください。

import pandas as pd
from sqlalchemy import create_engine, MetaData, Table, select
from StringIO import StringIO

ServerName = "myserver"
Database = "mydatabase"
TableName = "mytable"

engine = create_engine('mssql+pyodbc://' + ServerName + '/' + Database) #don't forget to add a password if needed

my_data_frame.head(0).to_sql(TableName, engine, if_exists='replace', index=False)  # create an empty table - just for structure
conn = engine.raw_connection()
cur = conn.cursor()
output = StringIO()
my_data_frame.to_csv(output, sep='\t', header=False, index=False) # a CSV that will be used for the bulk load
output.seek(0)
cur.copy_from(output, TableName, null="")  # null values become ''
conn.commit()
conn.close()
cur.close()
0
Roee Anuar