web-dev-qa-db-ja.com

PythonOperatorのテンプレートファイルを使用したエアフロー

BashOperatorまたはSqlOperatorを取得してテンプレートの外部ファイルを取得する方法は、ある程度明確に文書化されていますが、 PythonOperator my私がドキュメントから理解したことのテストは機能していません。 templates_extsおよびtemplates_dictパラメータは正しく相互作用してファイルを取得します。

私が作成したdagsフォルダーに:pyoptemplate.sqlおよびpyoptemplate.t と同様 test_python_operator_template.py

pyoptemplate.sql:

SELECT * FROM {{params.table}};

pyoptemplate.t:

SELECT * FROM {{params.table}};

test_python_operator_template.py:

# coding: utf-8
# vim:ai:si:et:sw=4 ts=4 tw=80
"""
# A Test of Templates in PythonOperator
"""

from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from datetime import datetime

import pprint

pp = pprint.PrettyPrinter(indent=4)


def templated_function(ds, **kwargs):
    """This function will try to use templates loaded from external files"""
    pp.pprint(ds)
    pp.pprint(kwargs)


# Define the DAG
dag = DAG(dag_id='test_python_operator_template_dag',
          default_args={"owner": "lamblin",
                        "start_date": datetime.now()},
          template_searchpath=['/Users/daniellamblin/airflow/dags'],
          schedule_interval='@once')


# Define the single task in this controller example DAG
op = PythonOperator(task_id='test_python_operator_template',
                    provide_context=True,
                    python_callable=templated_function,
                    templates_dict={
                        'pyoptemplate': '',
                        'pyoptemplate.sql': '',
                        'sql': 'pyoptemplate',
                        'file1':'pyoptemplate.sql',
                        'file2':'pyoptemplate.t',
                        'table': '{{params.table}}'},
                    templates_exts=['.sql','.t'],
                    params={'condition_param': True,
                            'message': 'Hello World',
                            'table': 'TEMP_TABLE'},
                    dag=dag)

実行の結果は、tableが文字列として正しくテンプレート化されていたが、他のテンプレートはテンプレート用のファイルを取り込まなかったことを示しています。

dlamblin$ airflow test test_python_operator_template_dag test_python_operator_template 2017-01-18
[2017-01-18 23:58:06,698] {__init__.py:36} INFO - Using executor SequentialExecutor
[2017-01-18 23:58:07,342] {models.py:154} INFO - Filling up the DagBag from /Users/daniellamblin/airflow/dags
[2017-01-18 23:58:07,620] {models.py:1196} INFO - 
--------------------------------------------------------------------------------
Starting attempt 1 of 1
--------------------------------------------------------------------------------

[2017-01-18 23:58:07,620] {models.py:1219} INFO - Executing <Task(PythonOperator): test_python_operator_template> on 2017-01-18 00:00:00
'2017-01-18'
{   u'END_DATE': '2017-01-18',
    u'conf': <module 'airflow.configuration' from '/Library/Python/2.7/site-packages/airflow/configuration.pyc'>,
    u'dag': <DAG: test_python_operator_template_dag>,
    u'dag_run': None,
    u'ds_nodash': u'20170118',
    u'end_date': '2017-01-18',
    u'execution_date': datetime.datetime(2017, 1, 18, 0, 0),
    u'latest_date': '2017-01-18',
    u'macros': <module 'airflow.macros' from '/Library/Python/2.7/site-packages/airflow/macros/__init__.pyc'>,
    u'params': {   'condition_param': True,
                   'message': 'Hello World',
                   'table': 'TEMP_TABLE'},
    u'run_id': None,
    u'tables': None,
    u'task': <Task(PythonOperator): test_python_operator_template>,
    u'task_instance': <TaskInstance: test_python_operator_template_dag.test_python_operator_template 2017-01-18 00:00:00 [running]>,
    u'task_instance_key_str': u'test_python_operator_template_dag__test_python_operator_template__20170118',
    'templates_dict': {   'file1': u'pyoptemplate.sql',
                          'file2': u'pyoptemplate.t',
                          'pyoptemplate': u'',
                          'pyoptemplate.sql': u'',
                          'sql': u'pyoptemplate',
                          'table': u'TEMP_TABLE'},
    u'test_mode': True,
    u'ti': <TaskInstance: test_python_operator_template_dag.test_python_operator_template 2017-01-18 00:00:00 [running]>,
    u'tomorrow_ds': '2017-01-19',
    u'tomorrow_ds_nodash': u'20170119',
    u'ts': '2017-01-18T00:00:00',
    u'ts_nodash': u'20170118T000000',
    u'yesterday_ds': '2017-01-17',
    u'yesterday_ds_nodash': u'20170117'}
[2017-01-18 23:58:07,634] {python_operator.py:67} INFO - Done. Returned value was: None
17
dlamblin

Airflow 1.8では、PythonOperatorがtemplate_ext__init__フィールドを置き換える方法は機能しません。タスクは、template_ext__class__のみをチェックします。 SQLテンプレートファイルを取得するPythonOperatorを作成するには、次の操作を行うだけです。

class SQLTemplatedPythonOperator(PythonOperator):
    template_ext = ('.sql',)

そして、実行時にタスクからSQLにアクセスするには:

SQLTemplatedPythonOperator(
    templates_dict={'query': 'my_template.sql'},
    params={'my_var': 'my_value'},
    python_callable=my_func,
    provide_context=True,
)

def my_func(**context):
    context['templates_dict']['query']
13
Ardan

最近、私は同じ問題に出会い、最終的にそれを解決しました。 @Ardanのソリューションは正しいが、Airflowが新規参入者にどのように機能するかについての詳細を含む、より完全な回答で繰り返したいだけです。

もちろん、最初に次のいずれかが必要です。

from airflow.operators.python_operator import PythonOperator

class SQLTemplatedPythonOperator(PythonOperator):

    # somehow ('.sql',) doesn't work but Tuple of two works...
    template_ext = ('.sql','.abcdefg')

以下のようなsqlテンプレートファイルがあると仮定します。

# stored at path: $AIRFLOW_HOME/sql/some.sql
select {{some_params}} from my_table;

まず、dag paramsの検索パスにフォルダーを追加してください。

template_searchpathをargsに渡してからargsをDAGに渡さないでください!!!!動作しません。

dag = DAG(
    dag_id= "some_name",
    default_args=args,
    schedule_interval="@once",
    template_searchpath='/Users/your_name/some_path/airflow_home/sql'
)

その後、オペレータの呼び出しは

SQLTemplatedPythonOperator(
        templates_dict={'query': 'some.sql'},
        op_kwargs={"args_directly_passed_to_your_function": "some_value"},
        task_id='dummy',
        params={"some_params":"some_value"},
        python_callable=your_func,
        provide_context=True,
        dag=dag,
    )

あなたの機能は次のようになります:

def your_func(args_directly_passed_to_your_function=None):
    query = context['templates_dict']['query']
    dome_some_thing(query)

いくつかの説明:

  1. Airflowはコンテキストの値を使用してテンプレートをレンダリングします。手動でコンテキストに追加するには、上記のようなparamsフィールドを使用できます。

  2. PythonOperatorは、@ Ardanが言及したように、template_extフィールドからテンプレートファイル拡張子を取得しません。ソースコードは here です。 self .__ class __。template_extからのみ拡張子を取ります。

  3. エアフローはtemplate_dictフィールドをループし、value.endswith(file_extension)== Trueの場合、テンプレートをレンダリングします。

10
P. Xie

これは本当に可能だとは思いません。ただし、次の回避策が役立つ場合があります。

def templated_function(ds, **kwargs):
    kwargs['ds'] = ds                                # put ds into 'context'
    task = kwargs['task']                            # get handle on task
    templ = open(kwargs['templates_dict']['file1']).read() # get template
    sql = task.render_template('', tmpl, kwargs)           # render it
    pp.pprint(sql)

ただし、より良いソリューションが必要です!

9
Will Fitzgerald

pythonで動作するようにテンプレート化されたスクリプトファイルを取得できません(pythonの新機能)。しかし、bash演算子を使用した例を以下に示します。

from datetime import datetime
from airflow import DAG
from airflow.operators.bash_operator import BashOperator

default_args = {
    'owner': 'airflow',
    'depends_on_past': False,
    #'start_date': airflow.utils.dates.days_ago(2),
    'email': ['[email protected]']}

dag = DAG('sr5', description='Simple tutorial DAG',
          schedule_interval='0 12 * * *',
          start_date=datetime(2017, 3, 20),
          catchup=False, #so that on scehduler restart, it doesn't try to catchup on all the missed runs
          template_searchpath=['/Users/my_name/Desktop/utils/airflow/resources'])

t1 = BashOperator(
    task_id='t1',
    depends_on_past=False,
    params={
        'ds1': 'hie'},
    bash_command="01.sh",
    dag=dag)

01.shスクリプトは次のようになります

#!/bin/sh

echo {{ ds }}
echo {{ params.ds1 }}

これにより、テスト実行時に次のような出力が得られます

[2017-05-12 08:31:52,981] {bash_operator.py:91}情報-出力:

[2017-05-12 08:31:52,984] {bash_operator.py:95}情報-2017-05-05

[2017-05-12 08:31:52,984] {bash_operator.py:95}情報-hie

1
Saurabh Mishra