スキップしてメイン コンテンツに移動

awk で SQL のようにグループごとの件数をカウントする

用いたデータのこの記事をご参考ください。
まず、DPC_EFn_201404-12.txt というテキストファイルの先頭が 201404 の行数(件数)をカウントする場合、下記のコマンドでできます。
(テキストは370万行なので、かなり時間かかります。)
$ awk '$0~/^201404/ {print $1}' DPC_EFn_201404-12.txt | wc -l
【結果】380502
でも、awk のみでカウントしたい場合は、下記でも行けます。
$ awk 'BEGIN {count=0} $0~/^201404/ {count=count+1} END {print count}' DPC_EFn_201404-12.txt
【結果】380502
正規表現ではなくカラム1で指定したい場合、
$ awk 'BEGIN {count=0} $1=="201404" {count=count+1} END {print count}' DPC_EFn_201404-12.txt
【結果】380502
さて、SQLの select yyyymm, count(*) from DPC_EFn_201404-12 group by yyyymm のようにしたい場合、
$ awk 'BEGIN {FS=OFS="\t"}  { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END {for(key in hash) print key,hash[key]}' DPC_EFn_201404-12.txt
【解説】入力ファイルのファイルセパレータ FS と 出力ファイルのファイルセパレータ OFS をTABに指定して、カラム1($1)がハッシュ配列にあれば、その値を+1、ない場合は1をいれます。最後にキーと値のペアを標準出力に出します。
【結果】
201410    435993
201411    391426
201412    403304
201404    380502
201405    390134
201406    423224
201407    450589
201408    429559
201409    412329
しかし、ソートしてないですね。ソートは少なくても下記の2パタンがあります。
$ awk 'BEGIN {FS=OFS="\t"}  { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END {for(key in hash) print key,hash[key]|"sort" }' DPC_EFn_201404-12.txt
あるいは
$ awk 'BEGIN {FS=OFS="\t"}  { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END {for(key in hash) print key,hash[key] }' DPC_EFn_201404-12.txt | sort
【結果】
201404    380502
201405    390134
201406    423224
201407    450589
201408    429559
201409    412329
201410    435993
201411    391426
201412    403304
残念ながら、上記のコマンドはデータベースとほぼ変わらないほど遅いので、gawk で試しました。
gawk 'BEGIN {FS=OFS="\t"}  { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END { for(key in hash) print key,hash[key] }' DPC_EFn_201404-12.txt
【結果】
201404    380502
201405    390134
201406    423224
201407    450589
201408    429559
201409    412329
201410    435993
201411    391426
201412    403304
(なぜかちゃんとソートしてくれました)
上記が早いので、年月を 201404 の絞込も下記のほうがかなり早くなります。
$ gawk 'BEGIN {FS=OFS="\t"}  { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END { for(key in hash) if (key=="201404") print key,hash[key] }' DPC_EFn_201404-12.txt
【結果】
201404    380502
次回は 「awk で SQL のようにテーブル(テキスト)を join する 」を書く予定です。

コメント

このブログの人気の投稿

余裕ですかね。

  いまの自分はやることが多いが、意外と慌てず一歩一歩現場と歩んでいき、地道にデータ入力から可視化までの利便性、完全性と正確性を追求する余裕が出ております。SpotfireというBIツールにハマり、人に使い方を教えながらもまたその恩恵を受けているといういい循環も大きいですね。大体自分のようなポストにいる人たちはあまりプログラムを書く余裕もないだが、自分は幸せのほうと思います。

自己流思い付き

 長年契約してきたさくらインターネットのVPSに稼働しているWordpressが何らかのものに削除されました。幸い残したいものはこのブログに移したので、あまり困ったことはありませんでした。もうVPSを解約しようと思いますが、今年の11月までの契約なので、正直って迷っております。  職場のホームページサーバがMacmini上のピュアDebianなので、実験台としてVPSを契約したのですが、もう実験しないし、解約してもよいだと思います。   このブログもこれをきっかけにタイトルを変えました。

趣味はなんですか?

 最近、仲間に趣味はなんですかって聞かれたらどう答えますか? う~ん、そうね。パソコンですかね。(いかにもオタクっぽいイメージがありますね。^^;) それともデータ処理ですかね。(ちょっと硬いイメージですかね。>_< もうちょっとよく考えると、データ探しですかね。まあ、一般の人は聞いてもわからないでしょうけど。