web-dev-qa-db-ja.com

複数のパターンのマッチング

_"001"_または_"100"_または_"000"_が_0_および_1_の4文字の文字列で発生するかどうかを確認します。たとえば、4文字の文字列は、_"1100"_または_"0010"_または_"1001"_または_"1111"_のようになります。文字列内の多くの文字列を1つのコマンドで照合するにはどうすればよいですか?

Grepをパターンマッチングに使用できることは知っていますが、grepを使用すると、一度に1つの文字列しかチェックできません。他のコマンドやgrep自体で複数の文字列を使用できるかどうかを知りたいです。

22
Narayani

はい、できます。 grepパターンの|は、orと同じ意味です。そのため、パターンとして"001|100|000"を使用してパターンをテストできます。同時に、grepはベクトル化されるため、これらすべてを1つのステップで実行できます。

x <- c("1100", "0010", "1001", "1111")
pattern <- "001|100|000"

grep(pattern, x)
[1] 1 2 3

これは、一致するパターン(この場合、最初の3つ)が含まれたベクトルのインデックスを返します。

場合によっては、ベクトルのどの要素が一致したかを示す論理ベクトルを用意すると便利なことがあります。次に、greplを使用できます。

grepl(pattern, x)
[1]  TRUE  TRUE  TRUE FALSE

Rの正規表現については、?regexを参照してください。


編集:手動でパターンを作成しないようにするには、pasteを使用できます。

myValues <- c("001", "100", "000")
pattern <- paste(myValues, collapse = "|")
42
Andrie

stringrパッケージを使用した1つのソリューションを次に示します

require(stringr)
mylist = c("1100", "0010", "1001", "1111")
str_locate(mylist, "000|001|100")
7
Ramnath

追加のパターンを追加するには、-e引数を使用します。

echo '1100' | grep -e '001' -e '110' -e '101'
3
Patrick Dignan

これを追加の回答にして申し訳ありませんが、コメントには行が多すぎます。

私が思い出したいのは、単一の一致パターンとして使用するためにpaste(..., collapse = "|")を介して貼り付けることができる項目の数は限られていることです-以下を参照してください。たぶん誰かが限界がどこにあるのかわかるでしょうか?確かにその数は現実的ではないかもしれませんが、実行するタスクによっては、考慮から完全に除外すべきではありません。

非常に多数のアイテムの場合、パターンの各アイテムをチェックするためにループが必要になります。

set.seed(0)
samplefun <- function(n, x, collapse){
  paste(sample(x, n, replace=TRUE), collapse=collapse)
}

words <- sapply(rpois(10000000, 8) + 1, samplefun, letters, '')
text <- sapply(rpois(1000, 5) + 1, samplefun, words, ' ')

#since execution takes a while, I have commented out the following lines

#result <- grepl(paste(words, collapse = "|"), text)

# Error in grepl(pattern, text) : 
#   invalid regular expression 
# 'wljtpgjqtnw|twiv|jphmer|mcemahvlsjxr|grehqfgldkgfu|
# ...

#result <- stringi::stri_detect_regex(text, paste(words, collapse = "|"))

# Error in stringi::stri_detect_regex(text, paste(words, collapse = "|")) : 
# Pattern exceeds limits on size or complexity. (U_REGEX_PATTERN_TOO_BIG)
2
Manuel Bickel

論理ベクトルが必要な場合は、stri_detect関数はstringiパッケージから。あなたの場合、パターンは正規表現ですので、これを使用してください:

stri_detect_regex(x, pattern)
## [1]  TRUE  TRUE  TRUE FALSE

そしていくつかのベンチマーク:

require(microbenchmark)
test <- stri_paste(stri_Rand_strings(100000, 4, "[0-1]"))
head(test)
## [1] "0001" "1111" "1101" "1101" "1110" "0110"
microbenchmark(stri_detect_regex(test, pattern), grepl(pattern, test))
Unit: milliseconds
                             expr      min       lq     mean   median       uq      max neval
 stri_detect_regex(test, pattern) 29.67405 30.30656 31.61175 30.93748 33.14948 35.90658   100
             grepl(pattern, test) 36.72723 37.71329 40.08595 40.01104 41.57586 48.63421   100
2
bartektartanus

%like%ライブラリのdata.table演算子を使用することもできます。

library(data.table)

# input
  x <- c("1100", "0010", "1001", "1111")
  pattern <- "001|100|000"

# check for pattern
  x %like% pattern

> [1]  TRUE  TRUE  TRUE FALSE
1
rafa.pereira