DS2でも外部ファイル出力はできます!!な話

ちょっとソース見つけられなかったんですが、だいぶ昔、海外のSASブログだったか何かのサイトで、「DS2にはfileステートメントがないみたいだぜ!」「マジかよ!ヤベェな!ハンドリング専門かよ!DS2はXXXX(なんか汚い言葉)だな!」みたいな外人同士のやりとりがあって、それをボーっと見てて、なんとなく頭に残ってました。

そうなんだぁ~、アウトプット部分は通常のSASコードで書かなきゃいけないんだ、そりゃXXXXだなぁって思ってたんですが、流石にそんなわけなかったですね。
普及し始めはガセじゃないですけど、みんな知らないんで結構間違ったコード上がるんで注意です。僕の記事に関しても間違いが含まれていることは多々あるはずなので鵜呑みは注意です。

話を戻しまして、実際問題ちょっと気づきにくいところなので説明します

じゃあまずはテストデータ

data Q1;
x=1;Y='A';output;
x=2;Y='B';output;
x=3;Y='C';output;
run;

そして、手始めに以下のコードを見てください

proc ds2 libs=work;
data _null_;
method run();
set Q1;
put X Y;
end;
enddata;
run;
quit;

こうすると、ログに






って出力されます。

うん、そりゃそうだろうね。データステップもそうじゃん。

データステップなら、putの前に、file print;ってつければアウトプットウインドウに
出力するし、先にfilenameで外部ファイルを定義してfileで指定すればそこに出力されます。

でも、DS2はfileステートメントないんだよね?じゃあやっぱ無理じゃん。

と思ったところで、次のコード見てください。

proc ds2 libs=work;
data ;
method run();
set Q1;
end;
enddata;
run;
quit;

?何が違うの?って思った方は、もう一度よく見てください。まずdata の後に_null_がなくなってます。旧データステップで、dataの後何もつけないと、何が起こるかは以下の記事を読んでください

「どうてもいい話 データセット名をかかずに実行」
http://sas-tumesas.blogspot.jp/2013/10/blog-post_1261.html

ようは勝手に連番でDATA1とか2とか作られていきます。
次にもう一点、putで何も指定してない!

これを実行すると何が起きるかというと
アウトプットウインドウに以下のような出力がでます







なるほど!そういうことか!SQLプロシジャでcreate tableつけずにselect文流すのとおなじですね。抽出結果がそのままアウトプットになるわけですか。

もうここまできたら読めてきましたね。
つまり、外部ファイルへの出力はアウトプット デリバリー システム、そうODSでやれってことですよ。

例えばcsvで欲しければ

filename outf "aa.csv";
ods tagsets.csv file=outf;
proc ds2 libs=work;
data;
method run();
set Q1;
put X Y;
end;
enddata;
run;
quit;
ods tagsets.csv close;

とすればOKなわけです。

9.4からods excelがあるから、拡張子xlsxにしてtagsets.csvのところをexcelにすれば
みんな大好きEXCELファイルも作れます

以上です!

連続・重複した日付期間データをならして最小オブザベーション数にまとめる方法について

イベント開始日と終了日からなるデータがあって、発生ごとに縦積みされるとします。
ただし、諸々の事情で継続途中でオブザベーションが別れたり、重複して記録されてたりするとします。

たとえば

6/1開始 - 6/3終了
6/2開始 - 6/4終了
6/4開始 - 6/5終了

という3行のにわかれたデータを

6/1開始 - 6/5終了

の1行におこしなおすという処理です。
これは結構苦手な人が多いはず。

今回使うのは以下のデータ(ややこいので欠損は含まれないということにしましょう)
でIDとSTDTでソート済みとしましょう

data Q1;
ID=1;STDT='01JUN2016'd;ENDT='03JUN2016'd;output;
ID=1;STDT='02JUN2016'd;ENDT='04JUN2016'd;output;
ID=1;STDT='04JUN2016'd;ENDT='05JUN2016'd;output;
ID=1;STDT='06JUN2016'd;ENDT='09JUN2016'd;output;
ID=1;STDT='12JUN2016'd;ENDT='15JUN2016'd;output;
ID=1;STDT='13JUN2016'd;ENDT='14JUN2016'd;output;
ID=1;STDT='17JUN2016'd;ENDT='17JUN2016'd;output;
ID=2;STDT='01JUN2016'd;ENDT='05JUN2016'd;output;
ID=2;STDT='02JUN2016'd;ENDT='08JUN2016'd;output;
ID=2;STDT='03JUN2016'd;ENDT='04JUN2016'd;output;
ID=2;STDT='10JUN2016'd;ENDT='11JUN2016'd;output;
format STDT ENDT yymmdds10.;
run;


これを

上記のような形にします。

この手の処理を書く場合は、先にガントチャートみたいな図を書いてから考えると楽ですね。
頭の中だけで組むと、結構泥沼になったりします

ちなみにSAS on demandでは、プロダクト「SAS OR」も使えて、そこに
proc ganttっていうガントチャートかけるプロシジャがあったので、使い方よくわからないけど
適当に指定して流してみました(頑張れば凄い綺麗なのが描けるみたいですけど)。
これのコードは本題じゃないので最後に書きます。


そこで、どうやるかですが、多分以下の感じで書くのが一般的ではないでしょうか?

data _Q1;
format r_STDT r_ENDT yymmdds10.;
set Q1;
by ID;
retain r_STDT r_ENDT ;
if first.ID then do;
r_STDT=STDT;
r_ENDT=ENDT;
end;
if STDT > r_ENDT+1 then do;
r_STDT=STDT;
r_ENDT=ENDT;
end;
if ENDT>r_ENDT then r_ENDT=ENDT;
run;
proc sql noprint;
create table A1 as
select ID,r_STDT as STDT,max(r_ENDT) as ENDT format=yymmdds10.
from _Q1
group by ID ,r_STDT;
quit;

1obs読み込みながらリテインしている開始日と終了日を条件に従って更新していくイメージです。
終了日はリテインしている終了日より後なら置き換える。開始日は、リテインしている終了日+1より
大きければそこで置き換える。
そしてできたデータセットについて、リテインしていた開始日でグループ化して、最も最大のリテインしていた終了日のみ残せばOKです。

sqlの部分に書き方はなんでもよくて、IDとr_STDT r_ENDTでソートしてlast.r_STDTでしぼってもOKなわけです。

上記の処理は2ステップでやってます。SASは基本的に行の先読みがやりにくい言語なので
上記の考え方を1ステップで表現するのは、かなり難しいです。どこで切ってアウトプットするかが、先まで読まないと確定できないですからね。

ところが、ハッシュオブジェクトなら、簡単にできちゃうんですよね。
前の記事で紹介したmultidataとfind_nextを使えば、先読みみたいなことが。

data A2;
length _STDT _ENDT 8.;
retain r_ENDT;
set Q1;
if _N_=1 then do;
call missing(_STDT,_ENDT);
declare hash h1(dataset:'Q1(rename=(STDT=_STDT
                                                                      ENDT=_ENDT))',multidata:'Y');
h1.definekey('ID');
h1.definedata('_STDT','_ENDT');
h1.definedone();
end;
 l_ID=lag(ID);
 if STDT<r_ENDT and ID=l_ID then delete;
 else do rc = h1.find() by 0 while (rc = 0) ;
  if _STDT<=ENDT+1 and _ENDT>ENDT then do;
  ENDT=_ENDT;
  end;
  rc= h1.find_next() ;
 end ;
 r_ENDT=ENDT;
 keep ID STDT ENDT;
run;

実は僕は、この処理を考えるとき、ハッシュでのやり方は一瞬で考えてすぐに書けたんですが
最初の書き方が中々でてこなくて手こずりました。
慣れたらこっちの方がわかりやすいと思うんですが、どうなんでしょ。

ちなみに、最初から最後までSQL一本でも表現できますが、かんなり難しいコードになります。
開始日(条件付き)と終了日の全組み合わせを作ってから、中に含まれる重複期間を除外するイメージですが、興味のある方は「SQLパズル: プログラミングが変わる書き方/考え方 第2版」に全コード載っているので参考にしてください。

最後にproc ganttのコードですが、僕もよくわかっとりません。as=でスタート、af=でエンド時点を指定します。
チャートに重ねる文字とかの制御をラベルデータセットで制御するみたいなんですが、まあ、あんまりSAS OR使う機会もないし、調べるの面倒だったので適当です。

data label;
 format _LVAR $10.; 
 _Y = -1;
 _LVAR = "STDT";
 _XVAR = "STDT";
 _CLABEL = "BLUE";
 _YOFFSET = .8; OUTPUT;
 _LVAR = "ENDT";
 _XVAR = "ENDT";
 _YOFFSET = .8;
 _XOFFSET = -0.3;OUTPUT;
RUN;
data GQ1;
set Q1;
format STDT ENDT day.;
run;
PROC GANTT DATA = GQ1 LABDATA=LABEL;
 CHART / AS = STDT AF = ENDT NOLEGEND NOJOBNUM NOTNLABEL 
         TIMEAXISFORMAT= day.;
 ID ID STDT ENDT;
 ;
RUN;




転置して連結してマージみたいな処理を一切ソートせずに行ってみる

以前の記事、「大半のソートは百害あって一利無しという話」
http://sas-tumesas.blogspot.jp/2016/04/blog-post.html

が結構反響あって、最近よくハッシュオブジェクトについて質問されることが多いです。

昔はよく、職場で提案したら「導入のメリットがわからない」「コードが難しそうだから」とかで一蹴されちゃいました!とかってネガティブな報告をもらってました。

近頃では、やっと導入するようになりました!という話や、単純な使用法から一歩踏み込んで、multidataやハッシュ反復子オブジェクト関連の質問までもくるので、日本でもようやく普及してきたのかなぁと嬉しく思います。次の僕の興味はDS2に傾いちゃってますが…。

ともあれ、まだハッシュオブジェクト使っていない方に、興味を持ってもらうには、具体的な使用例をできるだけ多く上げていくのがいいのかなと思ったので、最近質問があってハッシュを使った例を紹介してみます

以下の2つのデータセットがあったとします

data Q1;
do x= 1 to 5;
output;
end;
run ;











data Q2;
x=1;y=1;output;
x=1;y=2;output;
x=1;y=3;output;
x=3;y=4;output;
x=3;y=5;output;
x=4;y=6;output;
run ;













Q1に、xをキーにしてQ2のyをzっていう名前で取得する、複数ある場合は「,」で連結してねっていう処理を考えます。
出力したいのは以下の形です











多分、以下のような流れで書く方が多いんではないでしょうか

proc sort data=Q1;
by x;
run;
proc sort data=Q2;
by x;
run;
proc transpose data=Q2 out=_Q2 prefix=y_;
var y;
by x;
run;
options missing='';
data A0;
merge Q1(in=in1)
 _Q2;
by x;
if in1;
z=catx(',',of y_:);
keep x z;
run;
options missing='.';

上記の場合、4ステップで、sortが2回、transposeが1回入っています。

これをハッシュオブジェクトを使うと1ステップで記述できます

data A1 ;
length x 8. z $200.;
 if _n_ = 1 then do ;
 if 0 then set Q2 ;
 dcl hash h1 (dataset: "Q2", multidata: "y") ;
 h1.definekey ("x") ;
 h1.definedata ("y") ;
 h1.definedone () ;
 end ;
 set Q1 ;
 do rc = h1.find() by 0 while (rc = 0) ;
  z=CATX(',',z,y);
  rc= h1.find_next() ;
 end ;
keep x z;
run ;

結果は同じです。

ハッシュオブジェクトのmultidataは昔に一度紹介したことがありますがそれと同じですね。

「ハッシュオブジェクトの世界⑧ keyの重複を許容する multidata find_nextメソッド」


 do rc = h1.find() by 0 while (rc = 0) ;の部分は
ちょっと小洒落た、というかスカした書き方ですね。意味がわからない場合は過去記事のように
単純にわけて書いてOKです

ちょっと説明すると、ようはfindメソッドと、fined_nextメソッドの戻り値判定を一つにまとめてるんですね。
こういう風にifとかdoにメソッドの戻り値をもってくる書き方してもメソッドは実行されるんですね。
by 0にしてるのは、これをつけないとデフォルトで1ずつ増えてしまうからです。
rc=0、つまりメソッドがキーを見つけれている間はずっとのループを表現してるんですね。

前準備のためのソートや転置が一切不要になっているので、コードとしては効率化できたといえると思います。

例では文字列連結しましたが
catxの部分の処理を変えれば、例えばyの合計値や平均値をマージするプログラムも簡単にかけるわけですね。(DS2ならもっと簡単で、sqlで計算してからdataset指定できますけど)

また何かいい例があれば紹介したいと思います


正規表現でパターンマッチングを行い、マッチした数を返すマクロ

アクセス数とか見てみると、DS2系の記事がぶっ飛ぶほど人気なくてちょっと笑えます。
DS2凄いし、便利だし、今後の解析環境的にシフトしていくと思うんですけど、なかなかね。
もしちょっとでも興味のある方は今年のユーザー総会でDS2入門があるはずなので是非。

たまにはDS2以外の話でもと思っていたところ、いつ作ったかわからない便利マクロがでてきたので、ちょっと紹介します。

SASではPerlの正規表現が使用でき、わりと色んな所で紹介されているので利用している方も多いと思います。(2バイト文字に対してダメダメなので使えないケースも多いですが)

SASで正規表現-世界の切りとり方
http://d.hatena.ne.jp/O_Kohsuke/20141216/1419430432

【SAS】正規表現の取り扱い-ネットをさまよう実験室
http://tetchi-kun.hatenablog.com/entry/2015/01/13/183205

正規表現-Welcome to データ分析・マイニングの世界 by SAS
http://wikiwiki.jp/cattail/?%C0%B5%B5%AC%C9%BD%B8%BD

いろんな関数が用意されてるんですが、テキスト中に正規表現でマッチする部分が
いくつあるかをカウントする関数がありそうでなかったので、作ってみました。
多分正しくいけるはずですが間違ってたらご指摘ください

%macro prxcount (pattern, text, countvar);
 %local prx start stop pos length;
 %let prx = prxcount__prx_&sysindex;
 %let start = prxcount__start_&sysindex;
 %let stop = prxcount__stop_&sysindex;
 %let pos = prxcount__pos_&sysindex;
 %let length = prxcount__len_&sysindex;

 &prx = prxparse (&pattern);
 &start = 1;
 &stop = length (&text);
 &countvar. = 0;

 do while (&start <= &stop);
  call prxnext (&prx, &start, &stop, &text, &pos, &length);
  if &pos < 1 then leave;
  &countvar+1;
 end;

 drop prxcount__:;

%mend;

例えば

data A1;
text='cat rat bat pat';
%prxcount ("/[crb]at/",text, count1);
%prxcount ("/c.t/",text, count2);
run;

とすると、count1はcかrかbで始まって、次がatの部分なので3
count2はcの次が任意の一文字で、その次がtなのでcatの部分のみのマッチで1







となります。

肝になっている「call prxnext」ルーチンは
文字列内でパターンの一致があった位置と長さを都度指定した変数に返していくコールルーチンです。
詳しくはSASの公式を参照してください。
http://support.sas.com/documentation/cdl_alternate/ja/lefunctionsref/67960/HTML/default/n1obc9u7z3225mn1npwnassehff0.htm

パターンマッチしなくなった際に第4引数が0になるので、そこに行くまでループしてカウントしていくイメージです。