eval + parse + text vs. eval + substitute + do.call

R で実行したいコードが character 型のオブジェクトとして格納されている場合、eval + parse + text などを使って実行する事があります。 例えば、添え字をインクリメントして x1, x2, ..., という連番オブジェクトを生成する場合などに利用されていると思います。
各所 R コミュニティでは eval + parse + text なんて使うのはダメだ!という話をよく見かけます。 使ってはいけない理由についてはクリアに理解できなかったのですが、計算速度には違いがあるという事が指摘されているようです。
そこで、非推奨の eval + parse + text と推奨されている eval + substitute + do.call のシンプルな例を示した上で、計算速度の違いについて検討したいと思います。

eval + parse + text の例

シンプルな eval + parse + text の例です。
テキストで入力されている各コマンドを、paste 関数を用いて結合し、eval(parse(text = command)) で実行します。
とても直感的で書きやすいです。複数の関数を適用していますが、R に慣れている人であればコマンドを並べていくだけなので、特に悩むところも無いと思います。


  strDataName  <- "x"
  strFuncName1 <- "mean"
  strFuncName2 <- "rnorm"
  strDataValue <- "2"

  command <- paste(
    strDataName, " <- ",
    strFuncName1, "(", strFuncName2, "(", strDataValue, "))",
    sep = ""
  )
  eval(parse(text = command), envir = .GlobalEnv)
  print(x)
  

eval + substitute + do.call の例

シンプルな eval + substitute + do.call の例です。
複数の関数を適用する場合は若干面倒に見えますが、結局のところ適用したい関数に応じた処理が必要となるところは eval + parse + text の場合と同じで、関数の使い方や引数名などを知っている必要があります。
substitute(R の命令文, 環境 or オブジェクトリスト) 関数と do.call(関数名, 引数リスト) 関数は内部で実行したい関数の引数を "list" 型のオブジェクトで渡す必要があるため、各所に list() が入っています。


  args <- list(
    data = "x",
    fun1 = "mean",
    fun2 = "rnorm",
    arg1 = "2"
  )

  eval(
    substitute(
      data <- do.call(fun1, list(x = do.call(fun2, list(n = arg1)))),
      args
    ), 
    envir = .GlobalEnv
  )
  print(x)
  

実行速度の比較

では、二つの方法を rbenchmark パッケージを使って比較してみましょう。


  require(rbenchmark)

  evalParse <- function() {

    set.seed(111207)

    strDataName  <- "x"
    strFuncName1 <- "mean"
    strFuncName2 <- "rnorm"
    strDataValue <- "2"

    command <- paste(
      strDataName, " <- ",
      strFuncName1, "(", strFuncName2, "(", strDataValue, "))",
      sep = ""
    )
    eval(parse(text = command), envir = .GlobalEnv)

  }

  evalSubstitute <- function() {

    set.seed(111207)

    args <- list(
      data = "x",
      fun1 = "mean",
      fun2 = "rnorm",
      arg1 = "2"
    )

    eval(
      substitute(
        data <- do.call(fun1, list(x = do.call(fun2, list(n = arg1)))),
        args
      ), 
      envir = .GlobalEnv
    )

  }

  res <- benchmark(
    evalSubstitute(),
    evalParse(),
    columns = c("test", "replications", "elapsed", "relative", "user.self", "sys.self"),
    order = "relative",
    replications = 10000)

  print(res)
  

これを実行すると、以下のような結果が得られました。


  > print(res)
                test replications elapsed relative user.self sys.self
  1 evalSubstitute()        10000    0.41 1.000000      0.41        0
  2      evalParse()        10000    1.04 2.536585      1.03        0
  

上の結果を見ると、計算速度は eval + substitute + do.call の方が速い事が分かりました。
eval + parse + text 形式は直感的で書きやすいですが、計算速度という面から見ればできる限り eval + substitute + do.call 形式で書いた方が良いでしょう。

履歴

  • 2011/12/07 公開