HPDMDBでデータを要約データベースを得る

もともとSAS  enterprise miner にproc DMDB というものがあって(今は廃盤?)
それがHP(High Performance)として復活して,通常のSAS STATに13.2ぐらいから導入されたって流れですかね

Data Mining DataBase (DMDB)を作るプロシジャということなんですが,まあ,とてもシンプルなプロシジャで

 proc hpdmdb data=sashelp.cars 

     classout=cout  varout=vout1 ;

     var _numeric_  ;

     class _character_;

 run;

こうすると
CLASSOUTで出力したデータセット中は,指定した文字変数を全部FREQしたような
要約データセットができてます(形として立て積みの使いやすい形)
















でVAROUOTで出したデータセットの中は















こんな感じ.

まあ,通常のプロシジャのCLASSステートメントとちょっと違うのと
byも効かないので,層別集計とかには使いにくい

どちらかというと,初見のデータとか,大きなデータとかをとりあえずつっこんで
全体を把握するための要約データセットを作るみたいな(それをData Mining Databaseと一般的にいうのかどうか知らないですが笑
).

あと,臨床系ならSDTMとかADaM作った後に,とりまFREQみたいなことしてざっとQCしたりすることもあるかもしれませんが,カテゴリ値集約リストつくるなら,FREQやSUMMARY使うよりこっちの方がいいかもですよ.maxlevelオプションもあるようだし

で,いちおう,この子はHPプロシジャなのでPERFORMANCEステートメントとかあって,そっちのチューニングができるようになってるので,環境によってはかなりの性能を引き出せる余地があるかもです.ただ,普通のSingleマシーンモードで大きめのデータに使っても,そこそこ早い印象です

デバイスデータとかの1次クリーニングとかにもそこそこ便利ですよ