もともとSAS enterprise miner にproc DMDB というものがあって(今は廃盤?)
それがHP(High Performance)として復活して,通常のSAS STATに13.2ぐらいから導入されたって流れですかね
Data Mining DataBase (DMDB)を作るプロシジャということなんですが,まあ,とてもシンプルなプロシジャで
proc hpdmdb data=sashelp.cars
classout=cout varout=vout1 ;
var _numeric_ ;
class _character_;
run;
こうすると
CLASSOUTで出力したデータセット中は,指定した文字変数を全部FREQしたような
要約データセットができてます(形として立て積みの使いやすい形)
でVAROUOTで出したデータセットの中は
こんな感じ.
まあ,通常のプロシジャのCLASSステートメントとちょっと違うのと
byも効かないので,層別集計とかには使いにくい
どちらかというと,初見のデータとか,大きなデータとかをとりあえずつっこんで
全体を把握するための要約データセットを作るみたいな(それをData Mining Databaseと一般的にいうのかどうか知らないですが笑).
あと,臨床系ならSDTMとかADaM作った後に,とりまFREQみたいなことしてざっとQCしたりすることもあるかもしれませんが,カテゴリ値集約リストつくるなら,FREQやSUMMARY使うよりこっちの方がいいかもですよ.maxlevelオプションもあるようだし
で,いちおう,この子はHPプロシジャなのでPERFORMANCEステートメントとかあって,そっちのチューニングができるようになってるので,環境によってはかなりの性能を引き出せる余地があるかもです.ただ,普通のSingleマシーンモードで大きめのデータに使っても,そこそこ早い印象です
デバイスデータとかの1次クリーニングとかにもそこそこ便利ですよ
0 件のコメント:
コメントを投稿