浮気の話 Python 3 エンジニア認定基礎試験とったりしました

色々やらなければ,ならないことがあって,てんてこまいなのに,Pythonに手を出したりしてます.

だって,SASの集まり行っても,Python,Pythonと耳にすることが多くて,褒めるにせよ貶すにせよ,まず自分がやってみないとなと.
どうせやるなら,基礎からやろうということで,SAS BASEにあたるような試験とかないかなぁと思って,探して受験したのが

Python 3 エンジニア認定基礎試験
https://www.pythonic-exam.com/exam/basic
→プログラム設計者ご本人のチュートリアル本が,出題範囲となっていて,まあそりゃあ,確かですけどって試験ですね.
この本にプラスして,コーディングしながら学べる基礎本を1冊買うのがおススメかなってかんじです

合格体験記を投稿すると,かわいいヘビのぬいぐるみが貰えるという面白い趣向があります(なくなり次第終了ですって)
https://www.pythonic-exam.com/archives/category/success-story

またいつか,ゆっくり書きたいなぁと思ってます

お詫び-SASプログラミング掲示板をいったん閉鎖しますという話

ちょっとした困りごと
掲示板をやっていて、SAS公式のCommunityが稼働してからも使っていただける方がいて、細々とやらしていただいていました。
というか、私は放置状態で、何名かの優しいスペシャリストの善意に甘え続けていました

SASプログラミング掲示板(データステップ100万回)
https://tumesas.progoo.com/bbs/

がしかし、利用していたProgooのレンタル掲示板サービスが2019年2月28日 23:59をもって終了しますという連絡がきてしまいました。

う~ん、こまりました。
本当に申し訳ないです。とりあえず今の掲示板は3月から見れなくなってしまいそうです。
投稿いただいた記事のデータはCSVでエクスポートできるようなので、他のサービスにうまく引き継げるなら、そうしてもよいのですが、どなたか無料で、いいの知りませんでしょうか?

引き継げないようなら、アドレスとかそういうものを消して、質問と回答部分のみ、ダウンロードとかできるようにしましょうかね…。

なんかいいアイデアないでしょうか?最後まで人頼みという…

ただ、SAS社が既にJapan SAS Discussionという素晴らしい仕組みを運営していて、そちらが活発なので公式の利用をお勧めします。
https://communities.sas.com/t5/Japan-SAS-Discussion/bd-p/ja_forum

SAS社には未来永劫の継続をお願いしたいです

新年の挨拶とか近況とかproc DSTODS2とか

あけましておめでとうございます。本年もよろしくお願いいたします

全然更新できてないですね、まさか去年1年間で5記事しかだせてないとは…。
今年でこのブログも7年目ですかね。今年は少なくとも10記事はだせるように頑張ります。

社会人も10年くらいにして、やっと観念して毎日せっせこ真面目に働いてしまうようになってしまったということ、2歳児って元気で、SASコード書いてるとキーボード触ってきて打てないよっていうこと、面白いSASブログ書かれる人が増えていい時代になったので、そういうの見てて割と満足しちゃうよねっていうのが主な言い訳です(仕事に必要な技術はだいたい忘備録にあるしなぁ)。
しかし、他にも、ちょっとPythonに浮気してみたり、あと今大阪に住んでるのですが、関西も実は結構SASプログラマがいて、そんな人たちと集まってSASで戯れてたりすると、時間が経つのが早くて、それのせいかもしれませんね。

ちなみに話が変わりますがSAS Global Forumっていうイベントご存知でしょうか?

https://www.sas.com/en_us/events/sas-global-forum.html

SAS社の説明を使わせていただくと
======================================
全世界のSASユーザーが集う年次のイベント SAS Global Forum。
本イベントは、600を超えるセッションでワークショップ、プレゼンテーション、e-ポスター、デモおよび交流プログラムがありアナリティクス活用についての事例やテクノロジーが多数紹介されます。昨年は5400人もの登録者があり、世界中のデータサイエンティストと情報交換が可能です。
======================================
ということです。日本でいうユーザー総会みたいなもんですが、さすがSASの総本山、規模がケタ違いです。
2019年4月28日から5月1日まで、米国テキサス州ダラスで開催予定なのです。

で、なんでいきなりそんな話かというと、一応そこにPaperだして、20分間発表させていただけそうです。
アブストラクト審査は通ったようで、あとは論文本体を書いたり、頑張ればいけるはずです。
何人か既に知っている方が日本から参戦することは把握しているのですが、私もでるよって方がいれば、連絡いただけると嬉しいです。
まあ、そんな感じで、毎日頑張ってる感じです。色々レスポンスが遅くて、すみません…。

さてさて、てめぇの近況なんかどうでもいいよ、こっちはSASのこと知りたくて、わざわざこのブログ見に来てんだよ!って思われていると思うので。

小ネタ。

SAS 9.4M5から、DSTODS2プロシジャという、ちょっとネタみたいなやつが実装されてます。絶対、忘備録か晴れSASで紹介するだろうから、それ待とうっと思ってたんですが、なかなか書いてくれないのでさわりだけ。
→/*====訂正======*/
晴れ時々SASで既に紹介されてました!ごめんなさい!
http://dengonmemo.blogspot.com/2017/10/945.html

どういうプロシジャかというと、データステップを書いたプログラムを指定すると、それをDS2のコードに変換して出力するという面白プロシジャです。

まあ、やってみましょうか

適当に意味のないデータステップを1つ書いて

data test;
length  z $200.;
x=1;
y=1;
z="a";
array an{*} x y;
 do i=1 to dim(an);
an{i}=an{i}+1;
 end;
 drop x;
 a=10;
 rename z=z2;
run;

それをPG1.sasという名前で保存します。

そして
proc dstods2
 in="入力パス\PG1.sas"
 out="出力パス¥PG2.sas";
run;

だけです。

するとPG2.sasができており、その中身は

data TEST;
dcl char(200) Z;
 drop X ;
rename Z=Z2 ;
vararray double AN[*] X, Y;
 method run();
X = 1.0;
Y = 1.0;
Z = 'a';
do I = 1.0 to DIM(AN);
AN[I] = AN[I] + 1.0;
end;
A = 10.0;
;
_return: ;
end;
 enddata;

おおぉ!なんかDS2の書き方になってる。
すげーって、最初ぱっと見で、思うんですが、実は結構変換が雑というか、認識可能な文法が少なすぎです…。少なくとも新規変数の宣言とかは自分で足すしかないので(コードからだけだと新規かどうかわかんないので仕方ないですが)、ある程度DS2知っていないと厳しいです。
あと、きほん全部runメソッドにぶち込まれるので、if _N_=1とかって書いたらinitialメソッドになるかなぁとか期待しても裏切られます

サポートとサポート外の文法については
https://documentation.sas.com/?docsetId=proc&docsetTarget=p0zok9sr2a2t46n1r8zfuw5145t5.htm&docsetVersion=9.4&locale=en
をみてください。

あくまで個人の感想ですと前置きした上で、はっきり言わせていただきます。
使えねぇ…。
これで出てくるコードを手直しできるレベルの人なら、1から書いた方が絶対はやいだろ。

ちなみに例ででてきたPG2.sasですが、以下のように補完してやれば一応動きます。

proc ds2 libs=work;
data TEST(overwrite="yes");
dcl char(200) Z;
dcl double a;
 drop X ;
rename Z=Z2 ;
vararray double AN[*] X, Y;
 method run();
dcl double i;
X = 1.0;
Y = 1.0;
Z = 'a';
do I = 1.0 to DIM(AN);
AN[I] = AN[I] + 1.0;
end;
A = 10.0;
;
/* _return: ; */
end;
 enddata;
run;
quit;

今後の進化を期待なのかなぁ




nofmterrが想定してないエラーを隠してしまうこともあるんだよって話

ユーザー定義フォーマット が参照されているSASデータセットを開く場合は、カタログがwork等、デフォルトで検索される場所以外にあるのであればfmtsearchでカタログの存在するライブラリ名を指定する必要があります。

しかし、とりあえず、フォーマット当たってなくて、値でいいから開きたいという場合に
opions nofmterrを指定するケースがあります。そうしておけば、ユーザー定義フォーマットが見つからなくても、値で表示するので、開けるようになります。

で、結構パッと過去のデータみたいけど、フォーマットが見当たらないみたいな時に、使って、効いたまま、次の処理や作業をしちゃうことがあります。

そういう時に怖いのが以下のようなケースです

data  _null_;
x=input("2018/01/01",yymmdds10.);
put x=;
run;

よくあるミスですが、入力形式にyymmdds10というものは存在せず,yymmdd10.と指定するべきなので、当然














エラーになるので、気づくことができます。

ところがoptions nofmterrが効いていると



























赤線は残りますが、ERRORという扱いではなくなり、欠損のまま、問題なく処理が終了してしまいます。
これは見落としてしまいがちなので、要注意です。
必要がなくなったらoptins fmterrに戻しておくことをおすすめします。
あと、SAS ondemandなど一部のパッケージではデフォがnofmterrだったりするっぽいので気をつけてくださいな。



欠損値の大小関係

マニアックな小ネタ。

if ○○<. then FL="Y";else Fl="N";

という条件が真になる○○の値はなんでしょう?

はい、正解は

data a;
x=._;
if x<. then FL="Y";else FL="N";
run;







特殊欠損値の「._」でした。

SASではユーザーが自由に欠損値を区別できるために、.A~.Zと._の特殊欠損値を使えるようになっています。例えば、未観測の欠損と、計算不能の欠損を区別したいとか。
正直、知らない人が多いので欠損のカテゴリを分けたいなら別途カテゴリ変数作って分けた方がいい気もしますが…。
putとかすると[.A]は普通に文字型のAとかになるので、特殊欠損知らないで混乱している人をよく見ます。

ちなみに最初の話に戻りますが、「.」より小さいのは「._」だけです。特殊欠損の大小関係を確認してみましょう

data a;
do x=.,._,.A,.B,.C,.D,.E,.F,.G,.H,.I,.J,.K,.L,.M,.N,
      .O,.P,.Q,.R,.S,.T,.U,.V,.W,.X,.Y,.Z,-9999,0,1;
 output;
end;
run;

大きい順に並べてみると

proc sort data=A out=B;
 by descending x;
run;







































となります。

公式が説明している順番とも一致してますね

欠損値の大小って言われてもねって感じですね


if 0 then setにおいて初期化される変数についてはretain効果が付与されている

これは結構、罠なんですが、例えば以下の2つのデータセットがあって

data A;
X=1;output;
X=2;output;
X=3;output;
run;









data B;
Y="Y";Z=111;output;
Y="N";Z=222;output;
run;








の場合

data C;
set A;
if 0 then set B;
if X=1 then Y="Y";
else if X=2 then Y="N";
run;

のように書いた場合、Yという変数はset時のBには存在しない変数で、データステップ中で作成しているわけですが









となって、X=3の時もYがN”になっちゃってます。
これは前のオブザベーションで格納したYが消えずにretainされているからですね

なので、これが問題として、たまに顕在化するのは

data D;
set A;
if 0 then set B;
if _N_=1 then do;
declare hash h1(dataset:'B');
h1.definekey("Y");
h1.definedata("Z");
h1.definedone();
end;
if X=1 then Y="Y";
else if X=2 then Y="N";

if h1.find() ne 0 then call missing(Z);
run;

のように、合成した変数をキーにして、ハッシュ組む場合とかですね









if X=1 then Y="Y";
else if X=2 then Y="N";
if X=1 then Y="Y";
else if X=2 then Y="N";
else Y="";

としてやれば回避できますが、慣れてないとぱっとわかりにくいところですね




ktruncate関数で日本語のデータを壊さずにバイト単位で切りだす

たいした内容ではないですが,更新することに意義があると思い書きます.

マルチバイト文字とシングルバイト文字の混在データを何バイトごとに変数に切り分けろっていう要望があったとします.(200byteとか…)

その場合,substrとかでやってしまうと,ちょうど切り出すバイトの切れ目がマルチバイト文字だった場合,文字が壊れます.とはいえksubstrだと,シングルもマルチも文字単位でとるので,データにシングルバイト文字が多かった場合,余分な空きが生じます(壊れるよりはマシだけど)

その場合,文字列を1文字ずつループで判定して足したりしていくプログラムを書いたりもしますが,ktruncate関数も便利です.

SASの説明をみてみると

KTRUNCATE関数

マルチバイト文字を壊すことなく、文字列をバイト単位で、指定した長さに切ります。

まさしくばっちり.

ためしてみます

data _null_;
file print;
x="あいうえお";
y=substr(x,1,5);
leny=length(y);
put y= leny=;

z=ktruncate(x,1,5);
lenz=length(z);
put z= lenz=;
run;

結果は








substrは無理やり5byte切り出して,文字をぶっ壊してますが
ktruncateはその手前でとどめて置いてくれます.
普通に良い関数なんで,私は好きです