s3 urls-バケット名とパスを取得します

Question

Aws s3 urlを持つ変数があります

s3://bucket_name/folder1/folder2/file1.json

変数でbucket_nameを取得し、別の変数で/folder1/folder2/file1.jsonを残りたいのですが。私は正規表現を試しましたが、以下のようなbucket_nameを取得できましたが、もっと良い方法があるかどうかはわかりません。

m = re.search('(?<=s3:\/\/)[^\/]+', 's3://bucket_name/folder1/folder2/file1.json') print(m.group(0))

残りの部分、つまりfolder1/folder2/file1.jsonを取得するにはどうすればよいですか？

URLからbucket_nameとキーを抽出するboto3機能があるかどうかを確認しましたが、見つかりませんでした。

kichik · Accepted Answer

これは通常のURLなので、urlparseを使用してURLのすべての部分を取得できます。

>>> from urlparse import urlparse >>> o = urlparse('s3://bucket_name/folder1/folder2/file1.json', allow_fragments=False) >>> o ParseResult(scheme='s3', netloc='bucket_name', path='/folder1/folder2/file1.json', params='', query='', fragment='') >>> o.netloc 'bucket_name' >>> o.path '/folder1/folder2/file1.json'

次の答えが示唆するように、キーから最初のスラッシュを削除する必要がある場合があります。

o.path.lstrip('/')

Python 3 urlparseをurllib.parseに移動したので、以下を使用します。

from urllib.parse import urlparse

すべての詳細を処理するクラスがあります。

try: from urlparse import urlparse except ImportError: from urllib.parse import urlparse class S3Url(object): """ >>> s = S3Url("s3://bucket/hello/world") >>> s.bucket 'bucket' >>> s.key 'hello/world' >>> s.url 's3://bucket/hello/world' >>> s = S3Url("s3://bucket/hello/world?qwe1=3#ddd") >>> s.bucket 'bucket' >>> s.key 'hello/world?qwe1=3#ddd' >>> s.url 's3://bucket/hello/world?qwe1=3#ddd' >>> s = S3Url("s3://bucket/hello/world#foo?bar=2") >>> s.key 'hello/world#foo?bar=2' >>> s.url 's3://bucket/hello/world#foo?bar=2' """ def __init__(self, url): self._parsed = urlparse(url, allow_fragments=False) @property def bucket(self): return self._parsed.netloc @property def key(self): if self._parsed.query: return self._parsed.path.lstrip('/') + '?' + self._parsed.query else: return self._parsed.path.lstrip('/') @property def url(self): return self._parsed.geturl()

Mikhail Sirotenko · Answer

私のような人にとっては、boto3でオブジェクトを作成するために、urlparseを使用してキーとバケットを抽出しようとしていました。重要な詳細が1つあります：キーの先頭からスラッシュを削除

from urlparse import urlparse o = urlparse('s3://bucket_name/folder1/folder2/file1.json') bucket = o.netloc key = o.path boto3.client('s3') client.put_object(Body='test', Bucket=bucket, Key=key.lstrip('/'))

Boto3は例外をスローしないので、それを理解するにはしばらく時間がかかりました。

mikeviescas · Answer

Urllibまたはreなしで機能するソリューション（前のスラッシュも処理します）：

def split_s3_path(s3_path): path_parts=s3_path.replace("s3://","").split("/") bucket=path_parts.pop(0) key="/".join(path_parts) return bucket, key

走る：

bucket, key = split_s3_path("s3://my-bucket/some_folder/another_folder/my_file.txt")

戻り値：

bucket: my-bucket key: some_folder/another_folder/my_file.txt

Alec Hewitt · Answer

正規表現を使用したい場合は、次の操作を実行できます。

>>> import re >>> uri = 's3://my-bucket/my-folder/my-object.png' >>> match = re.match(r's3:\/\/(.+?)\/(.+)', uri) >>> match.group(1) 'my-bucket' >>> match.group(2) 'my-folder/my-object.png'

これには、何も許可するのではなく、s3スキームをチェックできるという利点があります。

David · Answer

ここでは、正規表現を使用したワンライナーです：

import re s3_path = "s3://bucket/path/to/key" bucket, key = re.match(r"s3:\/\/(.+?)\/(.+)", s3_path).groups()