web-dev-qa-db-ja.com

Talend Open Studioを使用してMySQLにデータをインポートする

約60 MBのCSVデータをインポートしようとしています。約400,000行が含まれているため、多すぎないようにしてください。次の方法でデータをインポートしました。

  1. MySQL Workbench-約2時間かかりました!!!
  2. MySQLを使用するLOAD INFILEコマンド-約15秒かかりました!
  3. Talend Open Studioの使用-Workbenchとほぼ同じです。

GUIツールがなぜそれほどうまく機能しないのですか?スクリプトを作成する代わりに、GUIベースのツールを使用したい。

Talend Open Studioで、物事をスピードアップする方法はありますか?ビッグデータを処理する別のTalend製品がある可能性があると聞きましたが、これはTalend Open Studioよりも速く動作しますか?

誰かが知っていることを願っています!

Pigを使用するHadoopでは、CSVをHDFSからPigメモリに非常に迅速に取得できることを知っています。

1
Palu

Talend tMySQLOutputにはどのパラメータを使用していますか? MySQLの設定は?それはINFILEよりも速くなることはできませんが、それでも実際には設定に依存しています。

あなたはあなたの質問をTelndForgeフォーラムに投稿することができます。ジョブコンポーネントの短い画面で、助けようとします

たとえば、私の通常のTalend-MySQLジョブ(請求準備)の1つ-からmysqlへの転送2Mのレコード、400Mb、サーバーによって6〜15分かかります(2つの構成があります)

編集、常に100回説明するよりも1回表示する方が良いため

2.3M行、300Mbファイル、挿入ごとに100行のtMySQLの速度: 100 rows per insert

挿入ごとに10 000行と同じ 10 000 rows per insert

tBulkOutputExec: twice faster than previous

しかし、合計時間:元の10 000行: original

バルク: bulk 実行後、コミットトランザクション、単一トランザクションを待機するため

3
a_vlad

まず、どの出力コンポーネントを使用していますか?提案している速度は、Tmysqloutputを使用しているようです。行ごとに書き込むように設計されているため、これは非常に遅いです。 Tmysqloutputbulkexecuteを使用してみてください。これにより、データが一括ファイルに収集され、全体が一度にアップロードされてコミットされます。

enter image description here

1
Dillon Wright