スキップしてメイン コンテンツに移動

awk で SQL のようにグループごとの件数をカウントする

用いたデータのこの記事をご参考ください。
まず、DPC_EFn_201404-12.txt というテキストファイルの先頭が 201404 の行数(件数)をカウントする場合、下記のコマンドでできます。
(テキストは370万行なので、かなり時間かかります。)
$ awk '$0~/^201404/ {print $1}' DPC_EFn_201404-12.txt | wc -l
【結果】380502
でも、awk のみでカウントしたい場合は、下記でも行けます。
$ awk 'BEGIN {count=0} $0~/^201404/ {count=count+1} END {print count}' DPC_EFn_201404-12.txt
【結果】380502
正規表現ではなくカラム1で指定したい場合、
$ awk 'BEGIN {count=0} $1=="201404" {count=count+1} END {print count}' DPC_EFn_201404-12.txt
【結果】380502
さて、SQLの select yyyymm, count(*) from DPC_EFn_201404-12 group by yyyymm のようにしたい場合、
$ awk 'BEGIN {FS=OFS="\t"}  { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END {for(key in hash) print key,hash[key]}' DPC_EFn_201404-12.txt
【解説】入力ファイルのファイルセパレータ FS と 出力ファイルのファイルセパレータ OFS をTABに指定して、カラム1($1)がハッシュ配列にあれば、その値を+1、ない場合は1をいれます。最後にキーと値のペアを標準出力に出します。
【結果】
201410    435993
201411    391426
201412    403304
201404    380502
201405    390134
201406    423224
201407    450589
201408    429559
201409    412329
しかし、ソートしてないですね。ソートは少なくても下記の2パタンがあります。
$ awk 'BEGIN {FS=OFS="\t"}  { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END {for(key in hash) print key,hash[key]|"sort" }' DPC_EFn_201404-12.txt
あるいは
$ awk 'BEGIN {FS=OFS="\t"}  { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END {for(key in hash) print key,hash[key] }' DPC_EFn_201404-12.txt | sort
【結果】
201404    380502
201405    390134
201406    423224
201407    450589
201408    429559
201409    412329
201410    435993
201411    391426
201412    403304
残念ながら、上記のコマンドはデータベースとほぼ変わらないほど遅いので、gawk で試しました。
gawk 'BEGIN {FS=OFS="\t"}  { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END { for(key in hash) print key,hash[key] }' DPC_EFn_201404-12.txt
【結果】
201404    380502
201405    390134
201406    423224
201407    450589
201408    429559
201409    412329
201410    435993
201411    391426
201412    403304
(なぜかちゃんとソートしてくれました)
上記が早いので、年月を 201404 の絞込も下記のほうがかなり早くなります。
$ gawk 'BEGIN {FS=OFS="\t"}  { if($1 in hash) hash[$1] = hash[$1]+1; else hash[$1]=1} END { for(key in hash) if (key=="201404") print key,hash[key] }' DPC_EFn_201404-12.txt
【結果】
201404    380502
次回は 「awk で SQL のようにテーブル(テキスト)を join する 」を書く予定です。

コメント

このブログの人気の投稿

さくらインターネットのレンタルサーバにMysqlの大きいdumpファイルのインポート

 さくらインターネットのレンタルサーバはFreeBSDをつかっています。 LAMP の環境が揃っています。 基本的にFTPアカウントが発行されて、Webベースでファイルの転送もデータベースの作成および管理(phpMyAdmin)ができます。 しかし、phpMyAdminは、dumpファイルをインポートする場合、最大16MBのファイルしかアプロードできません。 明確的にSSHアカウントは提示されていないが、実際にSSHでの接続も可能だと確認しました。しかし、SSHで接続してもmysqlでリモートMysqlサーバへの接続はできなかったようです。 そこで、dumpファイルの中身はSQL文なので、 A5m2 というSQLクライアントからインポートすることを試しました。 もちろん、自宅のパソコンから直接Mysqlサーバを接続できるとは思いませんが、一応試してみました。案の定、当たり前に制限がかけられています。 で、よく考えるとレンタルサーバからアクセスできるから、そのIPは許可されているだろうと思います。 なので、SSHトンネルを Bitvise SSH Client で掘ろうと考えていました。 BitviseのSSH設定はそんなに難しくないので、割愛しますが、 C2Sのタブの設定は下記の通りです。 listen interface => 127.0.0.1 List Port => 3306 (ローカルにMysqlが稼働している場合、3326とかに設定してください) Destination Host => レンタルサーバが提供しているMysqlサーバ mysql~.~.ac.jp Dest. Port => 3306 A5m2のデータベース設定は、Mysql直接接続で、IPを127.0.0.1にすれば、接続できるはずです。 それから、Dumpファイルを読み込んで「先頭からすべて」実行をすれば、いまのところ500MB位のファイルでも実行できました。だが、1.2GBのファイルは読み込みの途中にエラーになったが、ファイルが大きい過ぎたか、それともUTF8コードの問題なのか調査中です。結果がわかった次第追記します。

iPhoneのカレンダーに見知らぬアカウントによるフィティングリンクの恐れ

 昨日突然妻から、iPhoneのカレンダーに怪しい予定はいっぱい書き込まれました。 最初はメールアドレスの盗用されたと思って、メールアカウントのパスワードと、そのメールアドレスのApple IDのパスワードを急遽変更しました。しかし、書き込みが消えず、よくカレンダーの設定のアカウントを調べると下記の画像のような気持ち悪いアカウントがいつの間にか設定されてしまいました。おそらく料理紹介のホームページにある怪しい広告をクリックしたかもしれません。くれぐれもご注意ください。 幸い、このアカウントを削除すれば、書き込みも消えました。なにが違和感を感じたときは、絶対にリンク等をクリックしないほうが身のためでしょう。 さらにnslookupで ylevelsoft.funを調べてみるとIPは13.226.77.* セグメント内の4つのようです。 $ nslookup ylevelsoft.fun Server:         192.168.11.1 Address:        192.168.11.1#53 Non-authoritative answer: Name:   ylevelsoft.fun Address: 13.226.77.19 Name:   ylevelsoft.fun Address: 13.226.77.33 Name:   ylevelsoft.fun Address: 13.226.77.8 Name:   ylevelsoft.fun Address: 13.226.77.15 これらのIPアドレスを調べると、東京にあるIPアドレスがわかって、Amazonにホスティングしてるようです。 13.226.77.19 IP Address Details - IPinfo.io カレンダーのアカウントに登録したサーばをnslookupを調べると13.33.9.*セグメントの4つが使われて、Amazonにホスティングしてるようです。 このホスト名は、server-13-33-9-105.nrt57.r.cloudfront.net 上記のIPのホスト名server-13-...

Redmine 4.1.1-5 Textile の外部リンクを新しいタブで開く

\Bitnami\redmine-4.1.1-5\apps\redmine\htdocs\lib\redmine\wiki_formatting\textile にある、redcloth3.rb の850行目を下記のように   target='_blank' を追加して、Redmineを再起動してください。             "#{pre}<a#{atts}#{external} target='_blank' >#{text}</a>#{post}"