web-dev-qa-db-ja.com

文字列からPandas DataFrameを作成します。

いくつかの機能をテストするために、文字列からDataFrameを作成したいと思います。テストデータが次のようになっているとしましょう。

TESTDATA="""col1;col2;col3
1;4.4;99
2;4.5;200
3;4.7;65
4;3.2;140
"""

そのデータをPandas DataFrameに読み込むための最も簡単な方法は何ですか?

189
Emil H

これを行う簡単な方法は、 StringIO.StringIO(python2) または io.StringIO(python3) を使用して、それを pandas.read_csv 関数に渡すことです。例えば:

import sys
if sys.version_info[0] < 3: 
    from StringIO import StringIO
else:
    from io import StringIO

import pandas as pd

TESTDATA = StringIO("""col1;col2;col3
    1;4.4;99
    2;4.5;200
    3;4.7;65
    4;3.2;140
    """)

df = pd.read_csv(TESTDATA, sep=";")
356
Emil H

従来の可変幅CSVでは、データを文字列変数として格納することはできません。特に.pyファイル内で使用する場合は、代わりに固定幅のパイプ区切りデータを検討してください。さまざまなIDEやエディタが、パイプ区切りのテキストを整然とした表にフォーマットするためのプラグインを持っているかもしれません。

以下は私のために働きます。使用するには、ファイルに保存してください。 pandas_util.py。例は関数のdocstringに含まれています。 3.6より古いバージョンのPythonを使用している場合は、関数定義行から型注釈を削除してください。

import re

import pandas as pd


def read_pipe_separated_str(str_input: str, **kwargs) -> pd.DataFrame:
    """Read a Pandas object from a pipe-separated table contained within a string.

    Example:
        | int_score | ext_score | eligible |
        |           | 701       | True     |
        | 221.3     | 0         | False    |
        |           | 576       | True     |
        | 300       | 600       | True     |

    The leading and trailing pipes are optional, but if one is present, so must be the other.

    `kwargs` are passed to `read_csv`. They must not include `sep`.

    In PyCharm, the "Pipe Table Formatter" plugin has a "Format" feature that can be used to neatly format a table.
    """
    # Ref: https://stackoverflow.com/a/46471952/
    substitutions = [
        ('^ *', ''),  # Remove leading spaces
        (' *$', ''),  # Remove trailing spaces
        (r' *\| *', '|'),  # Remove spaces between columns
    ]
    if all(line.lstrip().startswith('|') and line.rstrip().endswith('|') for line in str_input.strip().split('\n')):
        substitutions.extend([
            (r'^\|', ''),  # Remove redundant leading delimiter
            (r'\|$', ''),  # Remove redundant trailing delimiter
        ])
    for pattern, replacement in substitutions:
        str_input = re.sub(pattern, replacement, str_input, flags=re.MULTILINE)
    return pd.read_csv(pd.compat.StringIO(str_input), sep='|', **kwargs)

動作しない代替案:

以下のコードは、左側と右側の両方に空の列が追加されるため、正しく機能しません。

df = pd.read_csv(pd.compat.StringIO(df_str), sep=r'\s*\|\s*', engine='python')
5
A-B-B

インタラクティブな作業のためのすばやく簡単な解決策は、クリップボードからデータをロードしてテキストをコピーアンドペーストすることです。

マウスで文字列の内容を選択します。

Copy data for pasting into a Pandas dataframe

Pythonシェルでは、 read_clipboard() を使用してください。

>>> pd.read_clipboard()
  col1;col2;col3
0       1;4.4;99
1      2;4.5;200
2       3;4.7;65
3      4;3.2;140

適切な区切り文字を使用してください。

>>> pd.read_clipboard(sep=';')
   col1  col2  col3
0     1   4.4    99
1     2   4.5   200
2     3   4.7    65
3     4   3.2   140

>>> df = pd.read_clipboard(sep=';') # save to dataframe
5
user2314737

分割方法

data = input_string
df = pd.DataFrame([x.split(';') for x in data.split('\n')])
print(df)
4
shaurya uppal