web-dev-qa-db-ja.com

R Rで異なる長さのネストされたリスト(Google geocode API出力)をフラット化する

私はGoogleのGeocoding APIを使用して住所リストをジオコーディングしています。ネストされたリストで結果を返します。リスト内の要素は異なる場合があり、部分的に一致する場合があるため、複数のネストされたリストが最上位でネストされます。これまでのところ、各GoogleResultを単一のデータフレームセルに保存しました。

これが私のデータフレームの例です:

    df <- structure(list(address = structure(c(3L, 1L, 2L), .Label = c("115 Civic Parade, Altona VIC 3018", 
"Civic Parade, Altona VIC 3018", "EAST LA CLARKEFIELD 3430"), class = "factor"), 
    GoogleResult = list(list(list(access_points = list(), address_components = list(
        list(long_name = "Los Angeles", short_name = "Los Angeles", 
            types = list("locality", "political")), list(long_name = "Los Angeles County", 
            short_name = "Los Angeles County", types = list("administrative_area_level_2", 
                "political")), list(long_name = "California", 
            short_name = "CA", types = list("administrative_area_level_1", 
                "political")), list(long_name = "United States", 
            short_name = "US", types = list("country", "political"))), 
        formatted_address = "Los Angeles, CA, USA", geometry = list(
            bounds = list(northeast = list(lat = 34.3373061, 
                lng = -118.1552891), southwest = list(lat = 33.7036519, 
                lng = -118.6681759)), location = list(lat = 34.0522342, 
                lng = -118.2436849), location_type = "APPROXIMATE", 
            viewport = list(northeast = list(lat = 34.3373061, 
                lng = -118.1552891), southwest = list(lat = 33.7036519, 
                lng = -118.6681759))), partial_match = TRUE, 
        place_id = "ChIJE9on3F3HwoAR9AhGJW_fL-I", types = list(
            "locality", "political")), list(access_points = list(), 
        address_components = list(list(long_name = "3430", short_name = "3430", 
            types = list("postal_code")), list(long_name = "Clarkefield", 
            short_name = "Clarkefield", types = list("locality", 
                "political")), list(long_name = "Victoria", short_name = "VIC", 
            types = list("administrative_area_level_1", "political")), 
            list(long_name = "Australia", short_name = "AU", 
                types = list("country", "political"))), formatted_address = "Clarkefield VIC 3430, Australia", 
        geometry = list(bounds = list(northeast = list(lat = -37.4364578, 
            lng = 144.8986988), southwest = list(lat = -37.5280439, 
            lng = 144.7012193)), location = list(lat = -37.497542, 
            lng = 144.8071366), location_type = "APPROXIMATE", 
            viewport = list(northeast = list(lat = -37.4364578, 
                lng = 144.8986988), southwest = list(lat = -37.5280439, 
                lng = 144.7012193))), partial_match = TRUE, place_id = "ChIJS3IdP-xX1moRkD8uRnhWBBw", 
        types = list("postal_code"))), list(list(access_points = list(), 
        address_components = list(list(long_name = "115", short_name = "115", 
            types = list("street_number")), list(long_name = "Civic Parade", 
            short_name = "Civic Parade", types = list("route")), 
            list(long_name = "Altona", short_name = "Altona", 
                types = list("locality", "political")), list(
                long_name = "Hobsons Bay City", short_name = "Hobsons Bay", 
                types = list("administrative_area_level_2", "political")), 
            list(long_name = "Victoria", short_name = "VIC", 
                types = list("administrative_area_level_1", "political")), 
            list(long_name = "Australia", short_name = "AU", 
                types = list("country", "political")), list(long_name = "3018", 
                short_name = "3018", types = list("postal_code"))), 
        formatted_address = "115 Civic Parade, Altona VIC 3018, Australia", 
        geometry = list(bounds = list(northeast = list(lat = -37.8633208, 
            lng = 144.8316509), southwest = list(lat = -37.86409, 
            lng = 144.8303929)), location = list(lat = -37.863727, 
            lng = 144.8310159), location_type = "ROOFTOP", viewport = list(
            northeast = list(lat = -37.8623564197085, lng = 144.832370880292), 
            southwest = list(lat = -37.8650543802915, lng = 144.829672919709))), 
        place_id = "ChIJBXz75NRj1moRpVRt21nooQw", types = list(
            "premise"))), list(list(access_points = list(), address_components = list(
        list(long_name = "Civic Parade", short_name = "Civic Parade", 
            types = list("route")), list(long_name = "Altona", 
            short_name = "Altona", types = list("locality", "political")), 
        list(long_name = "Hobsons Bay City", short_name = "Hobsons Bay", 
            types = list("administrative_area_level_2", "political")), 
        list(long_name = "Victoria", short_name = "VIC", types = list(
            "administrative_area_level_1", "political")), list(
            long_name = "Australia", short_name = "AU", types = list(
                "country", "political")), list(long_name = "3018", 
            short_name = "3018", types = list("postal_code"))), 
        formatted_address = "Civic Parade, Altona VIC 3018, Australia", 
        geometry = list(bounds = list(northeast = list(lat = -37.8626502, 
            lng = 144.8449271), southwest = list(lat = -37.8661171, 
            lng = 144.81081)), location = list(lat = -37.864412, 
            lng = 144.8303004), location_type = "GEOMETRIC_CENTER", 
            viewport = list(northeast = list(lat = -37.8626502, 
                lng = 144.8449271), southwest = list(lat = -37.8661171, 
                lng = 144.81081))), place_id = "EihDaXZpYyBQYXJhZGUsIEFsdG9uYSBWSUMgMzAxOCwgQXVzdHJhbGlhIi4qLAoUChIJtbGXUCti1moRKcxHhdx2QrYSFAoSCSEyccGdYdZqEXDajCF1VgQF", 
        types = list("route"))))), row.names = c(NA, -3L), class = "data.frame")

最初のケースは部分的に一致し、結果の2つのネストされたリストです。

私の予想される出力は:

  • すべてのリストのすべての要素を列として含むデータフレーム
  • 適切に命名されるすべての列
  • 部分一致の結果は> 1であり、一致ごとに1行になるか、 'address2'変数を使用してデータフレームを広げることができます。どちらの方法でも作業できます。

私は次のようなことを試しました:

lapply(df$GoogleResult, data.frame, stringsAsFactors = FALSE)

しかし、要素は長さが異なります...その結果:

arguments imply differing number of rows: 0, 1

部分一致の場合、結果はデー​​タフレームの2行として、または列の追加セットとして表示できますが、あまり気にしません。

どんな助けでも大歓迎です!

乾杯、

リュック

6
Luc

ggmap::geocode()関数から返されたものに基づいて、その形式でdfオブジェクトを取得する方法を追跡できません。代わりに、ドキュメンテーションの例からggmap::geocode()を実行して得られた正確な戻りオブジェクトをフラット化することを試みましたが、_source="google"_と_output="all"_を必ず使用してください。

以下の関数はベクトルを受け入れませんが、そうすることでかなり簡単に編集できるはずです。具体的には、geo_mat <- matrix(geo2, nrow=1, byrow=T)は、これを「ベクトルフレンドリー」にしないコード行です。これは、data.frameを長くする代わりに幅を広くするために選択した方法です。

Google APIはとにかくレートが制限されているので、効率についてそれほど心配しているのではないのではないかと思います。したがって、この関数はループなどで最適に機能する可能性があります。

ggmap::geocode()関数によって返されるリストオブジェクトには2つの名前付きコンポーネントがあることにも注意してください。 1つはresultsで、もう1つはstatusです。ジオコーディングプロセス中になんらかのエラーが発生しない限り、statusコンポーネントはあまり興味深くありません。それ以外の場合は、文字_'Ok'_になります。以下の関数は、リストオブジェクトのstatus部分を決して使用しません。

返されたJSONの要素の可変数に基づいて、さまざまな列名を「整列」することについて、あなたが言っていることは間違いなくわかります。私は非常に頻繁にGoogleマップAPIを使用しますこのための私の戦略は、ジオコーディングしている住所の適切なサンプルを取得し、どのフィールドをキャプチャしたいかを理解し、具体的に関数を作成することですそれらのフィールドを探し、存在しない場合はNAを返します。

とにかく、これがgeocode関数から返された単一の戻り値をフラット化する私の試みです。

_library(jsonlite)
library(purrr)
library(ggmap)
register_google(key=key)  # <-- I stored my key in a variable called key...

flatten_geocode <- function(geocode_output) {
    #' geocode_output: output of ggmap::geocode()
    #' tested only when source="google" and output="all"


    # isolate the results
    geo1      <- purrr::flatten(geocode_output$results)

    # unlist (this will retain the flattened names to be used later)
    geo2      <- unlist(geo1)

    # convert to wide-matrix, then dataframe
    geo_mat   <- matrix(geo2, nrow=1, byrow=T)  
    geo_df    <- data.frame(geo_mat, stringsAsFactors=F)

    # clean the column names up (I hate periods in R data.frame names)
    # the second "data.frame()" call is to use "check.names" to remove 
    # duplicate column names
    names(geo_df) <- names(geo2)
    geo_df    <- data.frame(geo_df, stringsAsFactors = F, check.names = T)
    names(geo_df) <- gsub("\\.", "_", tolower(names(geo_df)))

    return(geo_df)
}



this_geocode_output <- ggmap::geocode("1600 pennsylvania avenue, washington dc",
           source="google", output="all")

df_output <- flatten_geocode(this_geocode_output)
df_output
_
0
TaylorV
df <- df %>% unnest(col = GoogleResult)
GoogleResult <- as.list(df2$GoogleResult)
GoogleResult <- lapply(GoogleResult, function(i) as.list(unlist(i, recursive = FALSE)))
GoogleResult <- plyr::rbind.fill(lapply(GoogleResult, as.data.frame))
df <- cbind(address = df$address, GoogleResult)

これは、(指定された基準に沿った)以下のプロパティを持つデータフレームを返します。しかし、それは非常にクリーンなデータのようには見えません。

  • すべてのリストのすべての要素を列として含むデータフレーム
  • 値の元となったリスト要素に従って名前が付けられたすべての列
  • 部分一致の場合、一致ごとに1行
0
user8118328