スキップしてメイン コンテンツに移動

DPC公開データを処理してみよう(テキストエディターの利活用)

 テキストエディターはいろいろありますが、個人的に使い慣れているのはEmEditorのフリーバージョンです。なければ、生きていけないほどではないが、かなり手間をかけてデータを処理しなければならないことは間違いありません。

一つの例として、厚労省DPC公開データの 施設概要表(Excel:533KB)にしてみましょう。これをCSVに吐き出して、MongoDBにいれてみたいと思いますが、タイトルの米印※と改行が邪魔ですね。分析としてはいけてないデータです。(https://www.mhlw.go.jp/stf/shingi2/0000196043_00003.html

なぜなら、CSVに保存しなおすと中身が下記の形になってしまいますから。。。

"告示番号
※1","通番
※2",市町村番号,"都道
府県",施設名,病院類型,"DPC算定病床数
※3","DPC算定病床の入院基本料
※4","DPC算定病床割合
※5",回復期リハビリテーション病棟入院料病床数,地域包括ケア病棟入院料病床数,"精神病床数
※6",療養病床数,結核病床数,"病床総数
※7","平成30年度
提出月数
※8"
10001,10001,01101,北海道,札幌医科大学附属病院,平成15年度DPC参加病院,832,特定機能7対1,94.5%,0,0,42,0,6,880,12
10002,10002,01102,北海道,北海道大学病院,平成15年度DPC参加病院,869,特定機能7対1,92.5%,0,0,70,0,0,939,12
10003,10003,01204,北海道,旭川医科大学病院,平成15年度DPC参加病院,571,特定機能7対1,94.9%,0,0,31,0,0,602,12

では、「正規表現」で置換しましょう。まずは、正規表現 \n※[1-9] を使います。これは改行米印数字を空っぽに置換することになります。


すると、下記の画像のように改行米印数字が消えました。

それから、今度は「正規表現」で置換の抽出方法です。正規表現」(".*)\n(.*") から $1$2 を抽出します。最初の括弧は$1の範囲でダブルクォーテーションと任意の文字.* があてはまることです。$2は二番目の括弧が範囲で任意の文字.*とダブルクォーテーションがあてはまることです。改行\nは括弧ないではないので抽出の対象外となります。



ダブルクォーテーション内、ひとつ以上の改行があれば、もう一回、「すべて置換」をクリックすれば、綺麗なタイトルが得られます。

これで綺麗なデータを下記のコマンドで簡単にMongodbにインポートできます。


C:\Users\user\Desktop>mongoimport /db:dpc /collection:facilities /type:csv /file:facilities.csv /headerline

2020-09-01T14:49:28.410+0900    connected to: localhost

2020-09-01T14:49:29.428+0900    [#####...................] dpc.facilities       144KB/659KB (21.9%)

2020-09-01T14:49:30.485+0900    [#######################.] dpc.facilities       659KB/659KB (100.0%)

2020-09-01T14:49:30.486+0900    imported 4764 documents

コメント

このブログの人気の投稿

iPhoneのカレンダーに見知らぬアカウントによるフィティングリンクの恐れ

 昨日突然妻から、iPhoneのカレンダーに怪しい予定はいっぱい書き込まれました。 最初はメールアドレスの盗用されたと思って、メールアカウントのパスワードと、そのメールアドレスのApple IDのパスワードを急遽変更しました。しかし、書き込みが消えず、よくカレンダーの設定のアカウントを調べると下記の画像のような気持ち悪いアカウントがいつの間にか設定されてしまいました。おそらく料理紹介のホームページにある怪しい広告をクリックしたかもしれません。くれぐれもご注意ください。 幸い、このアカウントを削除すれば、書き込みも消えました。なにが違和感を感じたときは、絶対にリンク等をクリックしないほうが身のためでしょう。 さらにnslookupで ylevelsoft.funを調べてみるとIPは13.226.77.* セグメント内の4つのようです。 $ nslookup ylevelsoft.fun Server:         192.168.11.1 Address:        192.168.11.1#53 Non-authoritative answer: Name:   ylevelsoft.fun Address: 13.226.77.19 Name:   ylevelsoft.fun Address: 13.226.77.33 Name:   ylevelsoft.fun Address: 13.226.77.8 Name:   ylevelsoft.fun Address: 13.226.77.15 これらのIPアドレスを調べると、東京にあるIPアドレスがわかって、Amazonにホスティングしてるようです。 13.226.77.19 IP Address Details - IPinfo.io カレンダーのアカウントに登録したサーばをnslookupを調べると13.33.9.*セグメントの4つが使われて、Amazonにホスティングしてるようです。 このホスト名は、server-13-33-9-105.nrt57.r.cloudfront.net 上記のIPのホスト名server-13-...

Excel Power Query 英数字の全角から半角への変換

最近仕事上でExcelのPower Queryを始めました。しかし、英数字の全角から半角への変換関数がないため、下記のサイトを参考して、 作っちゃいました。  https://qiita.com/baku2san/items/8041d0259fe0db680e7e https://www.yoheim.net/blog.php?q=20191101 (original as text) as text =&gt; let    originalText = Text.Combine({original, ""}),    replaceResult =  Web.Page("<script>var originalText="&"'"&originalText&"'"&";var result=originalText.replace(/[A-Za-z0-9]/g, function(s) {return String.fromCharCode(s.charCodeAt(0) - 0xFEE0);});document.write(result);</script>")       [Data]{0}[Children]{0}[Children],    result = if (List.Count(replaceResult) &lt;= 1) then    {        "" as text // 変換して何も残らない場合    } else if (replaceResult{1}[Text]{0} = null) then    {       originalText   as text// 何も見つからない場合    }  else {       replaceResult{1}[Text]{0} as text    } in ...

閉域網の電子カルテにJitsiを稼働させてみた!(続き)

 前回は、 閉域網の電子カルテにJitsiを稼働してみた! を紹介しました。 サーバは古いMacminiですが、今回はインターネット環境のWindows 10のHyper-VでDebian 10を入れて、仮想サーバを電子カルテネットワーク内の、Windows server 2019とWindows server 2008のHyper-Vに移植する試みを紹介します。 Hyper-Vにすることで、新しい研究用仮想基盤や古いサーバ(旧国立大バックアップシステム等)の仮想基盤化で必要数に応じて簡単にJitsiサーバを増やすことが可能という利点があります。それから、故障した場合も簡単に他のHyper-V仮想基盤にすぐ再稼働することが可能なので耐障害になります。 今回利用したDebianのインストーラは、 debian-10.7.0-amd64-netinst.iso です。 基本のDebianのインストールはインストーラの指示通りでできますので、こちらで割愛します。必要なサービスは、VNCやSSHあたりです。GUIが利用したい場合、お好みのデスクトップで構いません。 Jitsi Meetのインストールは、 こちらのサイト(英文) を参考していますが、 こちらの環境では、下記のコマンドでやってみました。ドメイン名を使わず、IPアドレスのみでの設定なので、Hyper-Vのチェックポインの機能でIP変更のたびにJitsiをインストールします。 $ wget https://download.jitsi.org/jitsi-key.gpg.key $ sudo apt-key add jitsi-key.gpg.key $ sudo nano /etc/apt/sources.list.d/jitsi-stable.list #下記の一行を追記 deb https://download.jitsi.org stable/ $ sudo apt update $ sudo apt -d install jitsi-meet #電子カルテから簡単にインターネットからダウンロードできない環境を考えるととりあえず-dでダウンロードオンリーにします #ここでHyper-Vのチェックポインにします。 $ sudo apt install jitsi-meet イン...