web-dev-qa-db-ja.com

パンダ:週と年から日時オブジェクトを作成する方法は?

年と年の週を含む2つの整数列を提供するデータフレームがあります。

import pandas as pd
import numpy as np
L1 = [43,44,51,2,5,12]
L2 = [2016,2016,2016,2017,2017,2017]
df = pd.DataFrame({"Week":L1,"Year":L2})

df
Out[72]: 
   Week  Year
0    43  2016
1    44  2016
2    51  2016
3     2  2017
4     5  2017
5    12  2017

これら2つの数値からdatetimeオブジェクトを作成する必要があります。

私はこれを試しましたが、エラーが発生します:

df["DT"] = df.apply(lambda x: np.datetime64(x.Year,'Y') + np.timedelta64(x.Week,'W'),axis=1)

それから私はこれを試しました、それは機能しますが間違った結果を与えます、それはそれが週を完全に無視するということです:

df["S"] = df.Week.astype(str)+'-'+df.Year.astype(str)
df["DT"] = df["S"].apply(lambda x: pd.to_datetime(x,format='%W-%Y'))

df
Out[74]: 
   Week  Year        S         DT
0    43  2016  43-2016 2016-01-01
1    44  2016  44-2016 2016-01-01
2    51  2016  51-2016 2016-01-01
3     2  2017   2-2017 2017-01-01
4     5  2017   5-2017 2017-01-01
5    12  2017  12-2017 2017-01-01

Pythonのdatetime、Numpyのdatetime64、pandas Timestampの間で本当に道に迷ってしまいます。正しく実行された方法を教えていただけますか?

Python 3を使用しています。それが何らかの意味で関連している場合です。

編集:

Python 3.8で始まるこの問題は、datetime.dateオブジェクトに新しく導入されたメソッドで簡単に解決できます。 https://docs.python.org/3/library/datetime.html #datetime.date.fromisocalendar

15
Khris

これを試して:

In [19]: pd.to_datetime(df.Year.astype(str), format='%Y') + \
             pd.to_timedelta(df.Week.mul(7).astype(str) + ' days')
Out[19]:
0   2016-10-28
1   2016-11-04
2   2016-12-23
3   2017-01-15
4   2017-02-05
5   2017-03-26
dtype: datetime64[ns]

最初はsにタイムスタンプがあります

UNIX Epochタイムスタンプから解析する方がはるかに簡単です。

df['Date'] = pd.to_datetime(df['UNIX_Time'], unit='s')

タイミング 1000万行DFの場合:

セットアップ:

In [26]: df = pd.DataFrame(pd.date_range('1970-01-01', freq='1T', periods=10**7), columns=['date'])

In [27]: df.shape
Out[27]: (10000000, 1)

In [28]: df['unix_ts'] = df['date'].astype(np.int64)//10**9

In [30]: df
Out[30]:
                       date    unix_ts
0       1970-01-01 00:00:00          0
1       1970-01-01 00:01:00         60
2       1970-01-01 00:02:00        120
3       1970-01-01 00:03:00        180
4       1970-01-01 00:04:00        240
5       1970-01-01 00:05:00        300
6       1970-01-01 00:06:00        360
7       1970-01-01 00:07:00        420
8       1970-01-01 00:08:00        480
9       1970-01-01 00:09:00        540
...                     ...        ...
9999990 1989-01-05 10:30:00  599999400
9999991 1989-01-05 10:31:00  599999460
9999992 1989-01-05 10:32:00  599999520
9999993 1989-01-05 10:33:00  599999580
9999994 1989-01-05 10:34:00  599999640
9999995 1989-01-05 10:35:00  599999700
9999996 1989-01-05 10:36:00  599999760
9999997 1989-01-05 10:37:00  599999820
9999998 1989-01-05 10:38:00  599999880
9999999 1989-01-05 10:39:00  599999940

[10000000 rows x 2 columns]

小切手:

In [31]: pd.to_datetime(df.unix_ts, unit='s')
Out[31]:
0         1970-01-01 00:00:00
1         1970-01-01 00:01:00
2         1970-01-01 00:02:00
3         1970-01-01 00:03:00
4         1970-01-01 00:04:00
5         1970-01-01 00:05:00
6         1970-01-01 00:06:00
7         1970-01-01 00:07:00
8         1970-01-01 00:08:00
9         1970-01-01 00:09:00
                  ...
9999990   1989-01-05 10:30:00
9999991   1989-01-05 10:31:00
9999992   1989-01-05 10:32:00
9999993   1989-01-05 10:33:00
9999994   1989-01-05 10:34:00
9999995   1989-01-05 10:35:00
9999996   1989-01-05 10:36:00
9999997   1989-01-05 10:37:00
9999998   1989-01-05 10:38:00
9999999   1989-01-05 10:39:00
Name: unix_ts, Length: 10000000, dtype: datetime64[ns]

タイミング:

In [32]: %timeit pd.to_datetime(df.unix_ts, unit='s')
10 loops, best of 3: 156 ms per loop

結論: 10.000.000行を変換するための156ミリ秒はそれほど遅くないと思います

9
MaxU

週の最初の日を指定するには、%wが必要です。

df["DT"] = pd.to_datetime(df.Week.astype(str)+
                          df.Year.astype(str).add('-0') ,format='%W%Y-%w')
print (df)

  Week  Year         DT
0    43  2016 2016-10-30
1    44  2016 2016-11-06
2    51  2016 2016-12-25
3     2  2017 2017-01-15
4     5  2017 2017-02-05
5    12  2017 2017-03-26

df["DT"] = pd.to_datetime(df.Week.astype(str)+
                          df.Year.astype(str).add('-1') ,format='%W%Y-%w')
print (df)
   Week  Year         DT
0    43  2016 2016-10-24
1    44  2016 2016-10-31
2    51  2016 2016-12-19
3     2  2017 2017-01-09
4     5  2017 2017-01-30
5    12  2017 2017-03-20

df["DT"] = pd.to_datetime(df.Week.astype(str)+
                          df.Year.astype(str).add('-2') ,format='%W%Y-%w')
print (df)

   Week  Year         DT
0    43  2016 2016-10-25
1    44  2016 2016-11-01
2    51  2016 2016-12-20
3     2  2017 2017-01-10
4     5  2017 2017-01-31
5    12  2017 2017-03-21
9
jezrael

2019年から数週間にわたって、何かがおかしくなっています。ISO-8601規格では、2018年12月31日を2019年の第1週に割り当てています。その他のアプローチは、

pd.to_datetime(df.Week.astype(str)+
                  df.Year.astype(str).add('-2') ,format='%W%Y-%w')

2019年からシフトした結果が得られます。

ISO-8601規格に準拠するには、次の操作を行う必要があります。

import pandas as pd
import datetime

L1 = [52,53,1,2,5,52]
L2 = [2018,2018,2019,2019,2019,2019]
df = pd.DataFrame({"Week":L1,"Year":L2})
df['ISO'] = df['Year'].astype(str) + '-W' + df['Week'].astype(str) + '-1'
df['DT'] = df['ISO'].map(lambda x: datetime.datetime.strptime(x, "%G-W%V-%u"))
print(df)

それは印刷します:

   Week  Year         ISO         DT
0    52  2018  2018-W52-1 2018-12-24
1    53  2018  2018-W53-1 2018-12-31
2     1  2019   2019-W1-1 2018-12-31
3     2  2019   2019-W2-1 2019-01-07
4     5  2019   2019-W5-1 2019-01-28
5    52  2019  2019-W52-1 2019-12-23

2018年の第53週は無視され、2019年の第1週にマッピングされます。

https://www.epochconverter.com/weeks/2019 で自分を確認してください。

1