CodeIQで「『データサイエンティスト養成読本』著者陣さんの問題」やってみたけど…

【追記あり】

養成読本くれるというので乞食根性丸出しでやってみたんですけど、全問正解ならず…。というか、いまいち納得がいかないのでちょっとレビューします。

問1. Rに標準装備されているあやめ(Iris)のデータを用いて、
あやめのがく片の長さ(Sepal.Length)とがく片の幅(Sepal.Width)の相関分析を行いました。

【Rの実行結果】

上記の【Rの実行結果】を参考にし、次の中から正しいものを一つ選んでください。

a) LengthとWidthの間の相関係数r=-0.11757となっているため、Lengthが大きいほど、Widthが小さくなるといえる
b) 相関係数rの検定結果でp値が0.1519と有意水準0.05(5%)より大きくなっているため、2変数間に有意な相関があるとはいえない
c) aとbで統計量を精査しているため、データをプロットして散布図を作成することに意味はない

正解はbらしいのですが、私はaと答えました。なんでaじゃないのかちょっとよくわかりません。なんか根本的に勘違いしているんでしょうか…。レビューは以下でした。

aは、相関係数の理解が誤っています。
相関係数は-1から1の値をとり、その符号で相関関係の方向性を表し、絶対値の大きさで相関関係の強さを示します。
一般的には次のように言われることが多いです。
|r|=0.7~1:強い相関あり
|r|=0.4~0.7:やや相関あり
|r|=0~0.2:ほとんど相関なし

どう理解が誤っているのかはまったく書かれていないのでよくわかりません…。ひょっとして、因果と相関を混同するなということが言いたいのでしょうか。あるいは「有意かどうか検定していないから」と言いたいのでしょうか。前者については、因果関係を明示した表現ではないと思いますし、相関関係の一般的な表現なのではと思います。後者については、相関係数は別に推測統計学の専売特許ではありません。記述統計としてそのように表現することが間違いだとは思いません。ここまで書いて、根本的な勘違いだったら恥ずかしいのですが…。

bが正解となっていますが、微妙なラインですが私は誤りだと思います。「有意水準0.05(5%)より大きくなっているため」というのは有意水準を所与のものとしている書き方だと思います。「有意水準を5%に定めた場合は」とすべきでしょう。

問2. 次の中から正しいものを選んでください。

a) 重回帰分析を用いる際、どの説明変数がどのくらいの効果量であったかを直接比較するためにはあらかじめ説明変数を正規化してから分析する
b) 重回帰分析とは異なり、ランダムフォレストでは説明変数の重要度はわからない
c) 決定木やランダムフォレストなどのTreeモデルは母集団に分布形状を仮定しないノンパラメトリックな手法である

正解はaとcだそうです。どっちでもいい(あるは両方答えないとだめ?)みたいですが択一だと思って悩んでしまいました。ただ、aについては、「あらかじめ説明変数を正規化してから」というところに引っかかりを覚えたのでcにしました。標準化偏回帰係数はあらかじめ正規化しなくとも事後的に計算できます。「しなければならない」とは書いていないので間違いではないのですが。

問3. 売上へのGRPの影響を分析するため、回帰分析を実行しました。

【実行結果】
f:id:phosphor_m:20130919164935p:plain

上記の【実行結果】から分かることについて正しいものを選んでください。

a) このモデルは、p-valueが非常に小さいため実用的には使えないモデルである
b) Coefficientsから、grpが1%増えると売上はおおよそ0.21%増加する事が分かる
c) Coefficientsから、このモデル式は、売上 = 0.21393 × GRP + 11.54696 と分かる

bが正解とのことですが…。切片の存在を忘れていませんか?切片を計算に入れると、grpが1%増えたときの売り上げの伸び率は元のgrpに依存するので答えは出ません。この問は解なしだと思います。私は、きっとlogを書き忘れたんだろうと思って、cを選びました…。

【追記】問3については普通に私が間違えていました。


出題者のyokkunsさんに解説していただきました。対数線形モデルになっていたんですね。従属変数のlogを見落としていました。恥ずかしい…。

以上、全問正解はならずでしたが、別ルートからの献本は大歓迎でお待ちしております!