awk で SQL のようにグループごとの件数をカウントする

用いたデータのこの記事をご参考ください。

まず、DPC_EFn_201404-12.txt というテキストファイルの先頭が 201404 の行数（件数）をカウントする場合、下記のコマンドでできます。

（テキストは３７０万行なので、かなり時間かかります。）

$ awk '$0~/^201404/ {print $1}' DPC_EFn_201404-12.txt | wc -l

【結果】380502

でも、awk のみでカウントしたい場合は、下記でも行けます。

$ awk 'BEGIN {count=0} $0~/^201404/ {count=count+1} END {print count}' DPC_EFn_201404-12.txt

【結果】380502

正規表現ではなくカラム１で指定したい場合、

$ awk 'BEGIN {count=0} $1=="201404" {count=count+1} END {print count}' DPC_EFn_201404-12.txt

【結果】380502

さて、SQLの select yyyymm, count(*) from DPC_EFn_201404-12 group by yyyymm のようにしたい場合、

$ awk 'BEGIN {FS=OFS="\t"} { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END {for(key in hash) print key,hash[key]}' DPC_EFn_201404-12.txt

【解説】入力ファイルのファイルセパレータ FS と出力ファイルのファイルセパレータ OFS をTABに指定して、カラム１（$1）がハッシュ配列にあれば、その値を＋１、ない場合は１をいれます。最後にキーと値のペアを標準出力に出します。

【結果】
201410   435993
201411   391426
201412   403304
201404   380502
201405   390134
201406   423224
201407   450589
201408   429559
201409   412329

しかし、ソートしてないですね。ソートは少なくても下記の２パタンがあります。

$ awk 'BEGIN {FS=OFS="\t"} { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END {for(key in hash) print key,hash[key]|"sort" }' DPC_EFn_201404-12.txt

あるいは

$ awk 'BEGIN {FS=OFS="\t"} { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END {for(key in hash) print key,hash[key] }' DPC_EFn_201404-12.txt | sort

【結果】

201404   380502
201405   390134
201406   423224
201407   450589
201408   429559
201409   412329
201410   435993
201411   391426
201412   403304

残念ながら、上記のコマンドはデータベースとほぼ変わらないほど遅いので、gawk で試しました。

gawk 'BEGIN {FS=OFS="\t"} { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END { for(key in hash) print key,hash[key] }' DPC_EFn_201404-12.txt

【結果】

201404   380502
201405   390134
201406   423224
201407   450589
201408   429559
201409   412329
201410   435993
201411   391426
201412   403304

（なぜかちゃんとソートしてくれました）

上記が早いので、年月を 201404 の絞込も下記のほうがかなり早くなります。

$ gawk 'BEGIN {FS=OFS="\t"} { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END { for(key in hash) if (key=="201404") print key,hash[key] }' DPC_EFn_201404-12.txt

【結果】
201404 380502

次回は「awk で SQL のようにテーブル（テキスト）を join する」を書く予定です。

枯木春開

このブログを検索

awk で SQL のようにグループごとの件数をカウントする

コメント

コメントを投稿

このブログの人気の投稿

さくらインターネットのレンタルサーバにMysqlの大きいdumpファイルのインポート

iPhoneのカレンダーに見知らぬアカウントによるフィティングリンクの恐れ

閉域網の電子カルテにJitsiを稼働させてみた！（続き）