SASグローバル認定プログラム SAS Certified Statistical Business Analyst Using SAS 9: Regression and Modelingを受けてみた

ブログのネタは溜まってるんですが、なんだかんだとバタバタしてて更新滞ってます。
またそのうち、投下していきたいと思います。

さて、SAS認定資格の話ですが、BASE,ADVANCE,CLINICALに続いて4つ目の資格に挑戦してみました。
「SAS Certified Statistical Business Analyst Using SAS 9: Regression and Modeling」
http://www.sas.com/offices/asiapacific/japan/training/certify/sba9.html

出題範囲(SAS社ページより)
-----------------------------------------------------------------------------
分散分析
 分散分析の仮定の検証
 GLMおよびTTESTプロシジャを使用した母平均の差の分析
 分散分析におけるポストホック検定の実施による処理効果の評価
 因子間の交互作用の検出と分析
線形回帰
 REGおよびGLMプロシジャを使用した線形重回帰モデルの当てはめ
 線形重回帰モデルに対するREGプロシジャの出力の精査
 REGプロシジャを使用したモデル選択の実施
 診断分析と残差分析の使用による回帰モデルの妥当性の評価
ロジスティック回帰
 LOGISTICプロシジャによるロジスティック回帰の実施
 入力の選択によるモデル性能の最適化
 LOGISTICプロシジャの出力の解釈
 LOGISTICおよびSCOREプロシジャを使用した新規データセットのスコアリング
予測モデルの性能に向けた入力の準備
 入力データにおける潜在的な問題の同定
 DATAステップの利用によるループや配列、条件文、関数を用いたデータ・ハンドリング
 予測モデルにおけるカテゴリ変数の水準数の削減
 CORRプロシジャを使用した不要な変数のスクリーニング
 経験ロジットのプロットを使用した非線形性を持つ変数のスクリーニング
モデル性能の計測
 「正直な評価」原理を適用したモデル性能の計測
 混同行列を使用した分類性能の評価
 学習および評価データを使用したモデル選択と評価
 モデルの比較や選択を行うためのグラフ(ROC、リフト、およびゲインチャート)の作成と解釈
 スコアリングを行ううえでの効果的なカットオフ値の確立
 スコアリングのためのカットオフ値の効果的な意思決定
-----------------------------------------------------------------------------

長いので今後、SBAと書かせてください。

日本での受験が可能になってから、もう2年くらいたちますかね。
しかし、現時点で日本での有資格者はわずか21人!!

なんせ、BASE,ADVANCEと違って、テキストも模擬問題もないし、情報もほとんどないんで手をだしにくいですよね。

というわけで、そんな皆様のために、先陣?きってSBAの首獲ってきました。

あんまり、こういう問題でたよってピンポイントでいうのはまずいと思うので、個人的な感想と独り言だけ、ごく簡単にかいて終わります。

・ややマニアック(高度)&システムよりな部分のあるAdvanceに比べて、統計解析の理論・実装・結果の解釈という三点セットが入って、難易度もほどほどな資格なので、解析担当者のスキルアップや理解度の確認に良い資格だと思いました。新人の方が目標とかに据えるなら、Advanceより先にこっち勉強した方が、データサイエンティストを育てるという観点では、真っ当なんじゃないかなぁって思いましたね。
(僕の個人的な趣味趣向としては是非Advanceを先に勉強して、データステップマニアになろうぜ!って思うけど)
別にSASのセールスマンじゃないけど、偉い立場の方向けにアピールしときます。会社でサポートする価値のある資格だと思いますし、もし面接にこれ持ってる人がいたら、少なくとも「なんちゃって統計プログラマー」ではないと判断していいはずですよ。
資格の名前にBusinessとか入ってますけど、解析の素材が売り上げ予測だったり、倒産有無なだけで、治療効果の予測とか疾患の有無とかに変えれば、そのまま医薬や他業界で使える内容なんで、分野あんま関係ないです。別にビジネスに特化した知識は一切出ませんでした。
・出題範囲に偽りはない。ちゃんとその通りにでたよ。トピックごとの出題比率はさておき。
※ただ、英語試験での記述「Apply the principles of honest assessment to model performance measurement」を「正直な評価」原理を適用したモデル性能の計測って訳すのはどうなんでしょう。そんな言葉あるんでしょうか…。一般的な表現ならごめんなんさい。
普通に、複数のモデルの比較評価の仕方や、モデルのバリデーションについて出題されてた箇所のこと言ってるんだと思いますが。
・どっかの誰かさんみたいに、データステップで点数稼ごうとかって愚かな考えはやめた方がよい。出題比率的に。
・普段からSAS Outputはちゃんとみよう。解析プロシジャまわすと一杯色々でますけど、どういう統計量なのかとか知っておくのは大事。
・ods graphicsでだしてくれてるプロットも大事、
・個人的感触として、統計解析の理論部分についてはそんなに難しくないはず。
・出題範囲にあがっている GLM REG LOGISTICの基本的なアウトプットの解釈と、基本的なステートメント・オプションは押さえておいた方が。
・挙げられている(ROC、リフト、およびゲインチャート)について、ROCはともかく、リフトとかゲインは医薬であんまり書いたりしないかもなので調べておこう。
・広域をカバーする統計の教科書や社内資料があるなら復習しておくとよいかも。


まあ色々、自分で考えて広く勉強すればいいと思います。
結果、テストにでなくて、対テストとしては無駄になることも多いけど、勉強するのは悪いことじゃないですしね。

以上、頑張って!