データステップ100万回　SAS新手一生: HPDMDBでデータを要約データベースを得る

もともとSAS enterprise miner　にproc DMDB　というものがあって（今は廃盤？）
それがHP(High Performance)として復活して，通常のSAS STATに13.2ぐらいから導入されたって流れですかね

Data Mining DataBase (DMDB)を作るプロシジャということなんですが，まあ，とてもシンプルなプロシジャで

proc hpdmdb data=sashelp.cars

classout=cout varout=vout1 ;

var _numeric_ ;

class _character_;

run;

こうすると
CLASSOUTで出力したデータセット中は，指定した文字変数を全部FREQしたような
要約データセットができてます（形として立て積みの使いやすい形）

でVAROUOTで出したデータセットの中は

こんな感じ．

まあ，通常のプロシジャのCLASSステートメントとちょっと違うのと
byも効かないので，層別集計とかには使いにくい

どちらかというと，初見のデータとか，大きなデータとかをとりあえずつっこんで
全体を把握するための要約データセットを作るみたいな（それをData Mining Databaseと一般的にいうのかどうか知らないですが笑）．

あと，臨床系ならSDTMとかADaM作った後に，とりまFREQみたいなことしてざっとQCしたりすることもあるかもしれませんが，カテゴリ値集約リストつくるなら，FREQやSUMMARY使うよりこっちの方がいいかもですよ．maxlevelオプションもあるようだし

で，いちおう，この子はHPプロシジャなのでPERFORMANCEステートメントとかあって，そっちのチューニングができるようになってるので，環境によってはかなりの性能を引き出せる余地があるかもです．ただ，普通のSingleマシーンモードで大きめのデータに使っても，そこそこ早い印象です

デバイスデータとかの1次クリーニングとかにもそこそこ便利ですよ

データステップ100万回　SAS新手一生

HPDMDBでデータを要約データベースを得る

0 件のコメント:

コメントを投稿

連絡フォーム

ラベル