スキップしてメイン コンテンツに移動

awk 一行ではないが、コピペでターミナルで実行できる書き方

こちらはMac版のExcel ファイルからタブ区切りのテキストで保存した場合、
セル内の改行(¥r)を除くサンプルです。

#まずは nkf で UTF-8 に変換する
nkf -x saveAsTabSeparated.txt | \
# Excelから吐き出すテキストにセル内のダブルクオーテーションと改行\r を除く
gawk '
#ORS:出力改行、FS:入力フィルド区切り、OFS:出力区切り
BEGIN{ORS="\n";FS=OFS="\t";content="";}
#元々のデータの改行が\rのため、ORS="\n"を指定したことで、沢山なフィルドの一行データになる
#gensubでフィルド(Excelのセル)内のダブルクオーテーションと\rを除く
{for (i=1;i<=NF;i++) content=content OFS gensub(/\"(.*)\r(.*)\"/,"\\1","g",$(i))} 
END{print content}' | \
#改行を\r から \n に変える
gawk '
BEGIN{RS="\r";ORS="\n";FS=OFS="\t"}

{content=$1; for (i=2;i<=NF;i++) content= content OFS $(i); print content}'

こうすると、一行よりは読みやすくなります。

コメント

このブログの人気の投稿

趣味はなんですか?

 最近、仲間に趣味はなんですかって聞かれたらどう答えますか? う~ん、そうね。パソコンですかね。(いかにもオタクっぽいイメージがありますね。^^;) それともデータ処理ですかね。(ちょっと硬いイメージですかね。>_< もうちょっとよく考えると、データ探しですかね。まあ、一般の人は聞いてもわからないでしょうけど。

自己流思い付き

 長年契約してきたさくらインターネットのVPSに稼働しているWordpressが何らかのものに削除されました。幸い残したいものはこのブログに移したので、あまり困ったことはありませんでした。もうVPSを解約しようと思いますが、今年の11月までの契約なので、正直って迷っております。  職場のホームページサーバがMacmini上のピュアDebianなので、実験台としてVPSを契約したのですが、もう実験しないし、解約してもよいだと思います。   このブログもこれをきっかけにタイトルを変えました。

余裕ですかね。

  いまの自分はやることが多いが、意外と慌てず一歩一歩現場と歩んでいき、地道にデータ入力から可視化までの利便性、完全性と正確性を追求する余裕が出ております。SpotfireというBIツールにハマり、人に使い方を教えながらもまたその恩恵を受けているといういい循環も大きいですね。大体自分のようなポストにいる人たちはあまりプログラムを書く余裕もないだが、自分は幸せのほうと思います。