スキップしてメイン コンテンツに移動

DPC公開データのクレンジング(汎用性のある横持ち表を縦持ちデータに変換するツールとしてのつもり^^;)

 厚労省が公開したデータがいけていない(さらに複雑な分析ができない)からDPC公開データのクレンジングのためにExcel のVBAプログラミングで簡単なツールを作りました。

https://www.mhlw.go.jp/stf/shingi2/0000196043_00003.html

抽出手順
1.データの範囲を検知(行数、列数)
2.表頭を値として取得
3.値が2種類(件数、在院日数。8/4=2)があるから同時に2列を書き出す
4.次の表頭グループからデータを抽出

Excelファイルを下記からダウンロードできます。

 Excel xlsm

公開するか未定ですが、自動的に厚労省のURLからダウンロードして、表側と表頭を自動的に判別してCSVに吐き出すか、データベースに入れる拡張をする予定です。

【20210309追記】

MDC04の表の場合、件数・在院日数の下位項目数は均等ではない(4列か3列か)以前公開のExcelでは処理できないことが判明しました。修正バージョンは下記にアップロードしました。昨年10月に直したのに、アップロードするのはずっと忘れていました。

修正版


コメント

このブログの人気の投稿

趣味はなんですか?

 最近、仲間に趣味はなんですかって聞かれたらどう答えますか? う~ん、そうね。パソコンですかね。(いかにもオタクっぽいイメージがありますね。^^;) それともデータ処理ですかね。(ちょっと硬いイメージですかね。>_< もうちょっとよく考えると、データ探しですかね。まあ、一般の人は聞いてもわからないでしょうけど。

自己流思い付き

 長年契約してきたさくらインターネットのVPSに稼働しているWordpressが何らかのものに削除されました。幸い残したいものはこのブログに移したので、あまり困ったことはありませんでした。もうVPSを解約しようと思いますが、今年の11月までの契約なので、正直って迷っております。  職場のホームページサーバがMacmini上のピュアDebianなので、実験台としてVPSを契約したのですが、もう実験しないし、解約してもよいだと思います。   このブログもこれをきっかけにタイトルを変えました。

余裕ですかね。

  いまの自分はやることが多いが、意外と慌てず一歩一歩現場と歩んでいき、地道にデータ入力から可視化までの利便性、完全性と正確性を追求する余裕が出ております。SpotfireというBIツールにハマり、人に使い方を教えながらもまたその恩恵を受けているといういい循環も大きいですね。大体自分のようなポストにいる人たちはあまりプログラムを書く余裕もないだが、自分は幸せのほうと思います。