Boto3 get_query_resultsメソッドを使用してAWS Athenaからデータフレームを作成する方法

Question

AWS Athenaを使用して、S3から生データをクエリしています。 Athenaはクエリ出力をS3出力バケットに書き込むため、私は以前以下を実行していました。

df = pd.read_csv(OutputLocation)

しかし、これは高価な方法のようです。最近、get_query_resultsのboto3メソッドが、結果の複雑な辞書を返すことに気付きました。

client = boto3.client('athena') response = client.get_query_results( QueryExecutionId=res['QueryExecutionId'] )

私は2つの主要な問題に直面しています：

get_query_resultsの結果をpandasデータフレームにフォーマットするにはどうすればよいですか？
get_query_resultsは1000行のみを返します。 200万行を取得するためにどのように使用できますか？

Eric Bellet · Accepted Answer

get_query_resultsは1000行のみを返します。200万行をPandasデータフレーム？

追加しようとした場合：

client.get_query_results(QueryExecutionId=res['QueryExecutionId'], MaxResults=2000)

次のエラーが表示されます。

GetQueryResults操作を呼び出すときにエラー（InvalidRequestException）が発生しました：MaxResultsが最大許容長1000を超えています。

バケットs3から直接ファイルを取得すると、数百万行を取得できます（次の例では、Pandas Dataframe）：

def obtain_data_from_s3(self): self.resource = boto3.resource('s3', region_name = self.region_name, aws_access_key_id = self.aws_access_key_id, aws_secret_access_key= self.aws_secret_access_key) response = self.resource \ .Bucket(self.bucket) \ .Object(key= self.folder + self.filename + '.csv') \ .get() return pd.read_csv(io.BytesIO(response['Body'].read()), encoding='utf8')

Self.filenameは次のいずれかです。

self.filename = response['QueryExecutionId'] + ".csv"

AthenaはQueryExecutionIdとしてファイルに名前を付けるためです。クエリを受け取り、すべての行と列を含むデータフレームを返すすべてのコードを作成します。

import time import boto3 import pandas as pd import io class QueryAthena: def __init__(self, query, database): self.database = database self.folder = 'my_folder/' self.bucket = 'my_bucket' self.s3_input = 's3://' + self.bucket + '/my_folder_input' self.s3_output = 's3://' + self.bucket + '/' + self.folder self.region_name = 'us-east-1' self.aws_access_key_id = "my_aws_access_key_id" self.aws_secret_access_key = "my_aws_secret_access_key" self.query = query def load_conf(self, q): try: self.client = boto3.client('athena', region_name = self.region_name, aws_access_key_id = self.aws_access_key_id, aws_secret_access_key= self.aws_secret_access_key) response = self.client.start_query_execution( QueryString = q, QueryExecutionContext={ 'Database': self.database }, ResultConfiguration={ 'OutputLocation': self.s3_output, } ) self.filename = response['QueryExecutionId'] print('Execution ID: ' + response['QueryExecutionId']) except Exception as e: print(e) return response def run_query(self): queries = [self.query] for q in queries: res = self.load_conf(q) try: query_status = None while query_status == 'QUEUED' or query_status == 'RUNNING' or query_status is None: query_status = self.client.get_query_execution(QueryExecutionId=res["QueryExecutionId"])['QueryExecution']['Status']['State'] print(query_status) if query_status == 'FAILED' or query_status == 'CANCELLED': raise Exception('Athena query with the string "{}" failed or was cancelled'.format(self.query)) time.sleep(10) print('Query "{}" finished.'.format(self.query)) df = self.obtain_data() return df except Exception as e: print(e) def obtain_data(self): try: self.resource = boto3.resource('s3', region_name = self.region_name, aws_access_key_id = self.aws_access_key_id, aws_secret_access_key= self.aws_secret_access_key) response = self.resource \ .Bucket(self.bucket) \ .Object(key= self.folder + self.filename + '.csv') \ .get() return pd.read_csv(io.BytesIO(response['Body'].read()), encoding='utf8') except Exception as e: print(e) if __name__ == "__main__": query = "SELECT * FROM bucket.folder" qa = QueryAthena(query=query, database='myAthenaDb') dataframe = qa.run_query()

Niv Cohen · Answer

次の機能を使用して、最初の質問の解決策があります

def results_to_df(results): columns = [ col['Label'] for col in results['ResultSet']['ResultSetMetadata']['ColumnInfo'] ] listed_results = [] for res in results['ResultSet']['Rows'][1:]: values = [] for field in res['Data']: try: values.append(list(field.values())[0]) except: values.append(list(' ')) listed_results.append( dict(Zip(columns, values)) ) return listed_results

その後：

t = results_to_df(response) pd.DataFrame(t)

2番目の質問と@EricBelletのリクエストに関しては、S3でAthena出力から結果をロードするのに比べて非効率的で長いと思われるページネーションのアプローチも追加しています。

def run_query(query, database, s3_output): ''' Function for executing Athena queries and return the query ID ''' client = boto3.client('athena') response = client.start_query_execution( QueryString=query, QueryExecutionContext={ 'Database': database }, ResultConfiguration={ 'OutputLocation': s3_output, } ) print('Execution ID: ' + response['QueryExecutionId']) return response def format_result(results): ''' This function format the results toward append in the needed format. ''' columns = [ col['Label'] for col in results['ResultSet']['ResultSetMetadata']['ColumnInfo'] ] formatted_results = [] for result in results['ResultSet']['Rows'][0:]: values = [] for field in result['Data']: try: values.append(list(field.values())[0]) except: values.append(list(' ')) formatted_results.append( dict(Zip(columns, values)) ) return formatted_results res = run_query(query_2, database, s3_ouput) #query Athena import sys import boto3 marker = None formatted_results = [] query_id = res['QueryExecutionId'] i = 0 start_time = time.time() while True: paginator = client.get_paginator('get_query_results') response_iterator = paginator.paginate( QueryExecutionId=query_id, PaginationConfig={ 'MaxItems': 1000, 'PageSize': 1000, 'StartingToken': marker}) for page in response_iterator: i = i + 1 format_page = format_result(page) if i == 1: formatted_results = pd.DataFrame(format_page) Elif i > 1: formatted_results = formatted_results.append(pd.DataFrame(format_page)) try: marker = page['NextToken'] except KeyError: break print ("My program took", time.time() - start_time, "to run")

それはあまり良くフォーマットされていませんが、私はそれが仕事をすると思う...