UpSet-Plotというプロットをよくみかけます.アイテムの組み合わせ集計を,1個での集計,2個のアイテムセットでの集計,3個でのアイテムセットの集計...... n個のアイテムセットの集計 って,バスケット分析のような集計をしたときにそれをグラフ化します.
星とり表の部分がアイテムセットを示して,上のヒストグラムはそのカウント数です.
ここで,たとえば以下のグラフはある仮想の疾患に罹患した際に,患者に発現した症状のプロットです.Aさんが発熱と倦怠感の症状があったい場合,「発熱&倦怠感」のアイテムセットとして集計されます
👆
ここで注意は
上図のヒストグラム(上側)の一番左は「咳嗽」で,●が一つですが,これは,「咳嗽」だけを症状として,もった人がカウントされます.「咳嗽」と「発熱」がある人は「咳嗽」にはカウントされずに「咳嗽&発熱」でカウントされます.
では全体として,「咳嗽」を少なくとも1症状として持つ人数は??となった場合は横に延びてるヒストグラムがそれにあたるという仕組みです
SASコードは以下です(冒頭のグラフ描いたやつです).一応,データが変わっても,ID , item, itemnameをあわせてもらえれば可変で動くとは思いますが,多少調整いるかもです.
もうちょっと,洗練されてどこかで出そうと思いますが,第一ドラフトということで.
barchartparamで上側のヒストグラム,scatterとhighlowで星取表部分,横のヒストグラムはhighlowで描いてます.
/*テストデータ*/
data test;
call streaminit(123);
do ID = 1 to 100;
iend=rand("integer",1,3);
do i = 1 to iend;
item = rand("integer",1,5);
itemname = choosec(item,"鼻汁","倦怠感","咽頭痛","咳嗽","発熱");
output;
end;
end;
drop i iend;
run;
/*アイテム数*/
proc sql noprint;
select count(distinct item) into: item_n trimmed from test;
quit;
%put &=item_n;
/*アイテム*/
proc sort data=test(keep=item itemname) out=itemlist nodupkey;
by item;
run;
/*アイテムformat*/
data itemformat;
set itemlist;
FMTNAME="itemformat";
START=item;
LABEL=itemname;
run;
proc format lib=work cntlin=itemformat;
run;
/*個人内での重複除去*/
proc sort data=test out=test1 nodupkey;
by ID item;
run;
/*アイテム単純集計*/
proc summary data=test1 nway ;
class item itemname;
output out=_single_count(drop=_TYPE_ rename=(_FREQ_=single_count) );
run;
data single_count;
set _single_count;
single_start=0;
run;
/*個人内での組み合わせ生成のため転置*/
proc transpose data=test1 out=out1 prefix=item_;
by ID;
id item;
var item;
run;
/*組み合わせ生成*/
data out2;
length comb $200.;
set out1;
array ar item_:;
do over ar;
if ^missing(ar) then comb=catx("/",comb,ar);
end;
count=1;
run;
/*組み合わせ集計*/
proc summary data=out2 nway missing;
class comb: item_:;
output out=_comb_count(drop=_TYPE_ rename=(_FREQ_=comb_count) );
run;
proc sort data=_comb_count;
by descending comb_count;
run;
/*組み合わせ数と最大カウント*/
proc sql noprint;
select count(*) into:comb_n from comb_count;
select max(comb_count) into:comb_max from comb_count;
quit;
/*星取り表のつなぎ線用に最小・最大値*/
data comb_count;
set _comb_count;
array dummy_{&item_n};
do i = 1 to &item_n;
dummy_{i}=i;
end;
min = min(of item_:);
max = max(of item_:);
x = _N_;
drop i;
run;
/*グラフ用データ完成*/
data graph_data;
set comb_count single_count;
run;
/*星取表*/
%macro scatterplot();
%do i = 1 %to &item_n;
scatterplot x=x y=item_&i /yaxis=y2 markerattrs=(size=12 symbol=circlefilled);
scatterplot x=x y=dummy_&i /yaxis=y2 datatransparency=0.9 markerattrs=(size=12 symbol=circlefilled);
%end;
%mend;
proc template ;
define statgraph upset;
begingraph ;
/*2*2レイアウト*/
layout lattice/ rowdatarange = union
columnweights = (0.25 0.75)
rowweights = (0.6 0.4)
columns = 2 rows = 2
pad=(top=0 bottom=0 left=0 right=0)
;
/*余白 */
layout overlay / pad=(top=0 bottom=0 left=0 right=0)
outerpad=(top=0 bottom=0 left=0 right=0)
xaxisopts = (display =none);
endlayout;
/*ヒストグラム(barchartparm)*/
layout overlay /pad=(top=0 bottom=0 left=0 right=0)
outerpad=(top=0 bottom=0 left=0 right=0)
walldisplay=none
xaxisopts = (display =none linearopts = (viewmin=1 viewmax=&item_n tickvaluesequence = (start=1 end=&item_n increment=1)))
yaxisopts = (display= (line tickvalues) linearopts = (tickvaluesequence = (start=0 end=&comb_max. increment=5))) ;
barchartparm category=x response=comb_count/datalabel=comb_count;
endlayout;
/*横ヒストグラム(highlowplot)*/
layout overlay /pad=(top=0 bottom=0 left=0 right=0)
outerpad=(top=0 bottom=0 left=0 right=0)
walldisplay=none
xaxisopts = (display= none reverse=true)
yaxisopts = (display =none linearopts = (viewmin=1 viewmax=&item_n tickvaluesequence = (start=1 end=&item_n increment=1)))
y2axisopts = (display =(tickvalues) tickvalueattrs=(size=9) linearopts = (viewmin=1 viewmax=&item_n tickvaluesequence = (start=1 end=&item_n increment=1)));
highlowplot y=item high=single_count low=single_start
/yaxis=y2 group=item type=bar barwidth=0.5 fillattrs=(color=VLIGB) outlineattrs=(color=VLIGB)
highlabel=single_count labelattrs=(color=black)
;
endlayout;
/*星取表(scatterplot とhighlowplot)*/
layout overlay /pad=(top=0 bottom=0 left=0 right=0)
outerpad=(top=0 bottom=0 left=0 right=0)
xaxisopts = (display =none linearopts = (tickvaluesequence = (start=1 end=&comb_n. increment=1)))
yaxisopts = (display= (line ) linearopts = (viewmin=1 viewmax=&item_n ))
y2axisopts = (display=none linearopts = (viewmin=1 viewmax=&item_n ))
walldisplay=none;
%scatterplot();
highlowplot x=x low=min high=max/yaxis=y2;
endlayout;
endlayout;
endgraph;
end;
run;
* グラフ作成実行 ;
proc sgrender data=graph_data template=upset;
format item itemformat.;
run;