スキップしてメイン コンテンツに移動

DPC公開データを処理してみよう(テキストエディターの利活用)

 テキストエディターはいろいろありますが、個人的に使い慣れているのはEmEditorのフリーバージョンです。なければ、生きていけないほどではないが、かなり手間をかけてデータを処理しなければならないことは間違いありません。

一つの例として、厚労省DPC公開データの 施設概要表(Excel:533KB)にしてみましょう。これをCSVに吐き出して、MongoDBにいれてみたいと思いますが、タイトルの米印※と改行が邪魔ですね。分析としてはいけてないデータです。(https://www.mhlw.go.jp/stf/shingi2/0000196043_00003.html

なぜなら、CSVに保存しなおすと中身が下記の形になってしまいますから。。。

"告示番号
※1","通番
※2",市町村番号,"都道
府県",施設名,病院類型,"DPC算定病床数
※3","DPC算定病床の入院基本料
※4","DPC算定病床割合
※5",回復期リハビリテーション病棟入院料病床数,地域包括ケア病棟入院料病床数,"精神病床数
※6",療養病床数,結核病床数,"病床総数
※7","平成30年度
提出月数
※8"
10001,10001,01101,北海道,札幌医科大学附属病院,平成15年度DPC参加病院,832,特定機能7対1,94.5%,0,0,42,0,6,880,12
10002,10002,01102,北海道,北海道大学病院,平成15年度DPC参加病院,869,特定機能7対1,92.5%,0,0,70,0,0,939,12
10003,10003,01204,北海道,旭川医科大学病院,平成15年度DPC参加病院,571,特定機能7対1,94.9%,0,0,31,0,0,602,12

では、「正規表現」で置換しましょう。まずは、正規表現 \n※[1-9] を使います。これは改行米印数字を空っぽに置換することになります。


すると、下記の画像のように改行米印数字が消えました。

それから、今度は「正規表現」で置換の抽出方法です。正規表現」(".*)\n(.*") から $1$2 を抽出します。最初の括弧は$1の範囲でダブルクォーテーションと任意の文字.* があてはまることです。$2は二番目の括弧が範囲で任意の文字.*とダブルクォーテーションがあてはまることです。改行\nは括弧ないではないので抽出の対象外となります。



ダブルクォーテーション内、ひとつ以上の改行があれば、もう一回、「すべて置換」をクリックすれば、綺麗なタイトルが得られます。

これで綺麗なデータを下記のコマンドで簡単にMongodbにインポートできます。


C:\Users\user\Desktop>mongoimport /db:dpc /collection:facilities /type:csv /file:facilities.csv /headerline

2020-09-01T14:49:28.410+0900    connected to: localhost

2020-09-01T14:49:29.428+0900    [#####...................] dpc.facilities       144KB/659KB (21.9%)

2020-09-01T14:49:30.485+0900    [#######################.] dpc.facilities       659KB/659KB (100.0%)

2020-09-01T14:49:30.486+0900    imported 4764 documents

コメント

このブログの人気の投稿

iPhoneのカレンダーに見知らぬアカウントによるフィティングリンクの恐れ

 昨日突然妻から、iPhoneのカレンダーに怪しい予定はいっぱい書き込まれました。 最初はメールアドレスの盗用されたと思って、メールアカウントのパスワードと、そのメールアドレスのApple IDのパスワードを急遽変更しました。しかし、書き込みが消えず、よくカレンダーの設定のアカウントを調べると下記の画像のような気持ち悪いアカウントがいつの間にか設定されてしまいました。おそらく料理紹介のホームページにある怪しい広告をクリックしたかもしれません。くれぐれもご注意ください。 幸い、このアカウントを削除すれば、書き込みも消えました。なにが違和感を感じたときは、絶対にリンク等をクリックしないほうが身のためでしょう。 さらにnslookupで ylevelsoft.funを調べてみるとIPは13.226.77.* セグメント内の4つのようです。 $ nslookup ylevelsoft.fun Server:         192.168.11.1 Address:        192.168.11.1#53 Non-authoritative answer: Name:   ylevelsoft.fun Address: 13.226.77.19 Name:   ylevelsoft.fun Address: 13.226.77.33 Name:   ylevelsoft.fun Address: 13.226.77.8 Name:   ylevelsoft.fun Address: 13.226.77.15 これらのIPアドレスを調べると、東京にあるIPアドレスがわかって、Amazonにホスティングしてるようです。 13.226.77.19 IP Address Details - IPinfo.io カレンダーのアカウントに登録したサーばをnslookupを調べると13.33.9.*セグメントの4つが使われて、Amazonにホスティングしてるようです。 このホスト名は、server-13-33-9-105.nrt57.r.cloudfront.net 上記のIPのホスト名server-13-...

余裕ですかね。

  いまの自分はやることが多いが、意外と慌てず一歩一歩現場と歩んでいき、地道にデータ入力から可視化までの利便性、完全性と正確性を追求する余裕が出ております。SpotfireというBIツールにハマり、人に使い方を教えながらもまたその恩恵を受けているといういい循環も大きいですね。大体自分のようなポストにいる人たちはあまりプログラムを書く余裕もないだが、自分は幸せのほうと思います。

自己流思い付き

 長年契約してきたさくらインターネットのVPSに稼働しているWordpressが何らかのものに削除されました。幸い残したいものはこのブログに移したので、あまり困ったことはありませんでした。もうVPSを解約しようと思いますが、今年の11月までの契約なので、正直って迷っております。  職場のホームページサーバがMacmini上のピュアDebianなので、実験台としてVPSを契約したのですが、もう実験しないし、解約してもよいだと思います。   このブログもこれをきっかけにタイトルを変えました。