WEBページのデータ(HTML)を直接SASデータセットにする方法

WEBページのデータ(HTML)を直接SASデータセットにする方法です。

例えば、例えばの話で、実際やったことはない.....?ですが

仕事中にここ1週間の将棋の棋戦の結果を知りたいなって時に、

http://www.shogi.or.jp/kisen/week/kekka.html


















みたいなページを長々と見てたら、てめぇ仕事してないなって即バレなわけです。


なので filenameステートメントでURLをファイル指定して
infileステートメントでとりあえずそのまま読み込みます。


filename KISEN url 'http://www.shogi.or.jp/kisen/week/kekka.html';
       
data A1;
   infile KISEN ;
   input COL $2000. @@;
run;


すると


















のようにWEBページを構成しているHTMLがそのままデータセットになってます。

あとは必要な部分の性質がわかっているなら

data A2;
 set A1;
 where COL contains ('○');
run;

(基本、勝敗がつくと考えて)




















これで、行われた対局と、その結果をぱっと知れます。
正規表現とか駆使すれば、余計なタグを取り除いて綺麗にできます。




0 件のコメント:

コメントを投稿