LSTM RNNを使用したトレーニングデータのシャッフル

Question

LSTM RNNは以前のイベントを使用して現在のシーケンスを予測するので、なぜトレーニングデータをシャッフルするのですか？トレーニングデータの時間的順序は失われませんか？シャッフルされたトレーニングデータでトレーニングされた後、予測を行う上で、どのようにまだ効果的ですか？

Brian Bartoldson · Accepted Answer

一般に、トレーニングデータ（シーケンスのセット）をシャッフルするとき、シーケンスがRNNに供給される順序をシャッフルしますが、個々のシーケンス内の順序はシャッフルしません。ネットワークがステートレスの場合、これは問題ありません。

ステートレスケース：

ネットワークのメモリは、シーケンスの間だけ持続します。ネットワークのメモリ状態はシーケンス間で保持されないため、シーケンスAの前にシーケンスBでトレーニングすることは重要ではありません。

一方：

ステートフルケース：

ネットワークのメモリはシーケンスを超えて持続します。ここでは、盲目的にデータをシャッフルして、最適な結果を期待することはできません。 AはBの前に来るため、シーケンスAはシーケンスBの前にネットワークに供給される必要があり、ネットワークはシーケンスBをシーケンスAにあったもののメモリで評価する必要があります。