post by yamamoto | Closed | 79 views

DPC公開データを処理してみよう(テキストエディターの利活用)

 テキストエディターはいろいろありますが、個人的に使い慣れているのはEmEditorのフリーバージョンです。なければ、生きていけないほどではないが、かなり手間をかけてデータを処理しなければならないことは間違いありません。

一つの例として、厚労省DPC公開データの 施設概要表(Excel:533KB)にしてみましょう。これをCSVに吐き出して、MongoDBにいれてみたいと思いますが、タイトルの米印※と改行が邪魔ですね。分析としてはいけてないデータです。(https://www.mhlw.go.jp/stf/shingi2/0000196043_00003.html

なぜなら、CSVに保存しなおすと中身が下記の形になってしまいますから。。。

“告示番号
※1″,”通番
※2″,市町村番号,”都道
府県”,施設名,病院類型,”DPC算定病床数
※3″,”DPC算定病床の入院基本料
※4″,”DPC算定病床割合
※5″,回復期リハビリテーション病棟入院料病床数,地域包括ケア病棟入院料病床数,”精神病床数
※6″,療養病床数,結核病床数,”病床総数
※7″,”平成30年度
提出月数
※8″
10001,10001,01101,北海道,札幌医科大学附属病院,平成15年度DPC参加病院,832,特定機能7対1,94.5%,0,0,42,0,6,880,12
10002,10002,01102,北海道,北海道大学病院,平成15年度DPC参加病院,869,特定機能7対1,92.5%,0,0,70,0,0,939,12
10003,10003,01204,北海道,旭川医科大学病院,平成15年度DPC参加病院,571,特定機能7対1,94.9%,0,0,31,0,0,602,12

では、「正規表現」で置換しましょう。まずは、正規表現 \n※[1-9] を使います。これは改行米印数字を空っぽに置換することになります。

 

 

すると、下記の画像のように改行米印数字が消えました。

 

それから、今度は「正規表現」で置換の抽出方法です。正規表現」(“.*)\n(.*”) から $1$2 を抽出します。最初の括弧は$1の範囲でダブルクォーテーションと任意の文字.* があてはまることです。$2は二番目の括弧が範囲で任意の文字.*とダブルクォーテーションがあてはまることです。改行\nは括弧ないではないので抽出の対象外となります。

 

 

ダブルクォーテーション内、ひとつ以上の改行があれば、もう一回、「すべて置換」をクリックすれば、綺麗なタイトルが得られます。


これで綺麗なデータを下記のコマンドで簡単にMongodbにインポートできます。

 

 

C:\Users\user\Desktop>mongoimport /db:dpc /collection:facilities /type:csv /file:facilities.csv /headerline

2020-09-01T14:49:28.410+0900    connected to: localhost

2020-09-01T14:49:29.428+0900    [#####……………….] dpc.facilities       144KB/659KB (21.9%)

2020-09-01T14:49:30.485+0900    [#######################.] dpc.facilities       659KB/659KB (100.0%)

 

2020-09-01T14:49:30.486+0900    imported 4764 documents

ミラーサイト:

https://shyunsei.blogspot.com/2020/09/dpc.html

Comments are closed.