Monthly Archives: 12月 2015

post by yamamoto | | 0 | 236 views

awk : sql のように2つファイルを join する(キーがユニックではない場合)

参考サイト a.tsv

b.tsv

post by yamamoto | | 0 | 257 views

Mac版Excelが別名保存したタブ区切りテキストのセル内改行を除く awk

nkf -x myTabText.txt | gawk 'BEGIN{ORS="\n";FS=OFS="\t";content=""}{for (i=1;i<=NF;i++) content=content OFS gensub(/\"(.*)\r(.*)\"/,"\\1","g",$(i))} END{print content}'| gawk 'BEGIN{RS="\r";ORS="\n";FS=OFS="\t"} {print $0}' > myOutputText.txt 【解説】 日本語コードはshift-JISなので、nkf -x で UTF-8へ変換します。 タブ区きりテキストの改行コードは \r で、gawk のデフォルトの改行コードが \n なので、最初の gawk はテキストを一行のものとして、処理します。 セル内改行がある場合、ダブルコーテーションで挟まれるので、gensub で ダブルコーテーションと \r を除きます。 最後の gawk は入力の改行コードを \r (RS="\r")に指定して、入力の改行コードを \ (ORS="\n")に指定して出力します。

post by yamamoto | | 0 | 249 views

ICD-10 英語、日本語、繁体字中国語

WHO http://apps.who.int/classifications/icd10/browse/2016/en http://www.who.int/classifications/icd/en/ ・ここから「DOWNLOADS」へ 厚労省 http://www.mhlw.go.jp/toukei/sippei/   台灣の中央健康保険署が提供しているICD-10 http://www.nhi.gov.tw/webdata/webdata.aspx?menu=17&menu_id=1027&WD_ID=1042&webdata_id=4679 最新情報は下記のURLで確認できます。 http://www.nhi.gov.tw/webdata/webdata.aspx?menu=17&menu_id=1027&WD_ID=1042&webdata_id=4678