スキップしてメイン コンテンツに移動

awk で DPC データの匿名化

DPCデータの前処理はこちらの記事をご参照ください。
$ awk 'BEGIN {FS=OFS="\t"}  { cmd="echo salt"  $3 " | openssl dgst -sha256 | sed \"s/(stdin)= //\" "; while (cmd | getline var) print $1,$2,var,$4,$5,$6,$7,$8,$9,$10,$11,$12,$13,$14,$15,$16,$17,$18,$19,$20,$21,$22,$23,$24,$25,$26,$27,$28,$29,$30,$31,$32; close(cmd)}' DPC_EFn_201404-12.txt > DPC_EFn_201404-12_Crypt.txt 
【解説】
・BEGIN {FS=OFS="\t"} :入力フィールドセパレータFSと出力セパレータOFSをTABに指定する。
・cmd="echo salt $3 " | openssl dgst -sha256 | sed \"s/(stdin)= //\" " :フィールド3に対して塩をかけてsha256暗号化をするコマンド
・cmd | getline var :コマンド cmd の実行した結果を var に入れる。
・print $1,$2,var,$4,... :$3 だけを暗号化した文字列に入れ替える。
・close(cmd):cmd を閉じる
・DPC_EFn_201404-12.txt :入力ファイル
・> DPC_EFn_201404-12_Crypt.txt :出力ファイル

コメント

このブログの人気の投稿

自己流思い付き

 長年契約してきたさくらインターネットのVPSに稼働しているWordpressが何らかのものに削除されました。幸い残したいものはこのブログに移したので、あまり困ったことはありませんでした。もうVPSを解約しようと思いますが、今年の11月までの契約なので、正直って迷っております。  職場のホームページサーバがMacmini上のピュアDebianなので、実験台としてVPSを契約したのですが、もう実験しないし、解約してもよいだと思います。   このブログもこれをきっかけにタイトルを変えました。

余裕ですかね。

  いまの自分はやることが多いが、意外と慌てず一歩一歩現場と歩んでいき、地道にデータ入力から可視化までの利便性、完全性と正確性を追求する余裕が出ております。SpotfireというBIツールにハマり、人に使い方を教えながらもまたその恩恵を受けているといういい循環も大きいですね。大体自分のようなポストにいる人たちはあまりプログラムを書く余裕もないだが、自分は幸せのほうと思います。

趣味はなんですか?

 最近、仲間に趣味はなんですかって聞かれたらどう答えますか? う~ん、そうね。パソコンですかね。(いかにもオタクっぽいイメージがありますね。^^;) それともデータ処理ですかね。(ちょっと硬いイメージですかね。>_< もうちょっとよく考えると、データ探しですかね。まあ、一般の人は聞いてもわからないでしょうけど。