2020年8月28日金曜日

DPC公開データのクレンジング(汎用性のある横持ち表を縦持ちデータに変換するツールとしてのつもり^^;)

 厚労省が公開したデータがいけていない(さらに複雑な分析ができない)からDPC公開データのクレンジングのためにExcel のVBAプログラミングで簡単なツールを作りました。

https://www.mhlw.go.jp/stf/shingi2/0000196043_00003.html

抽出手順
1.データの範囲を検知(行数、列数)
2.表頭を値として取得
3.値が2種類(件数、在院日数。8/4=2)があるから同時に2列を書き出す
4.次の表頭グループからデータを抽出

Excelファイルを下記からダウンロードできます。

 Excel xlsm

公開するか未定ですが、自動的に厚労省のURLからダウンロードして、表側と表頭を自動的に判別してCSVに吐き出すか、データベースに入れる拡張をする予定です。

【20210309追記】

MDC04の表の場合、件数・在院日数の下位項目数は均等ではない(4列か3列か)以前公開のExcelでは処理できないことが判明しました。修正バージョンは下記にアップロードしました。昨年10月に直したのに、アップロードするのはずっと忘れていました。

修正版


0 件のコメント:

コメントを投稿