テキストエディターはいろいろありますが、個人的に使い慣れているのはEmEditorのフリーバージョンです。なければ、生きていけないほどではないが、かなり手間をかけてデータを処理しなければならないことは間違いありません。
一つの例として、厚労省DPC公開データの 施設概要表(Excel:533KB)にしてみましょう。これをCSVに吐き出して、MongoDBにいれてみたいと思いますが、タイトルの米印※と改行が邪魔ですね。分析としてはいけてないデータです。(https://www.mhlw.go.jp/stf/shingi2/0000196043_00003.html)
なぜなら、CSVに保存しなおすと中身が下記の形になってしまいますから。。。
"告示番号
※1","通番
※2",市町村番号,"都道
府県",施設名,病院類型,"DPC算定病床数
※3","DPC算定病床の入院基本料
※4","DPC算定病床割合
※5",回復期リハビリテーション病棟入院料病床数,地域包括ケア病棟入院料病床数,"精神病床数
※6",療養病床数,結核病床数,"病床総数
※7","平成30年度
提出月数
※8"
10001,10001,01101,北海道,札幌医科大学附属病院,平成15年度DPC参加病院,832,特定機能7対1,94.5%,0,0,42,0,6,880,12
10002,10002,01102,北海道,北海道大学病院,平成15年度DPC参加病院,869,特定機能7対1,92.5%,0,0,70,0,0,939,12
10003,10003,01204,北海道,旭川医科大学病院,平成15年度DPC参加病院,571,特定機能7対1,94.9%,0,0,31,0,0,602,12
では、「正規表現」で置換しましょう。まずは、正規表現 \n※[1-9] を使います。これは改行米印数字を空っぽに置換することになります。
それから、今度は「正規表現」で置換の抽出方法です。正規表現」(".*)\n(.*") から $1$2 を抽出します。最初の括弧は$1の範囲でダブルクォーテーションと任意の文字.* があてはまることです。$2は二番目の括弧が範囲で任意の文字.*とダブルクォーテーションがあてはまることです。改行\nは括弧ないではないので抽出の対象外となります。
これで綺麗なデータを下記のコマンドで簡単にMongodbにインポートできます。
C:\Users\user\Desktop>mongoimport /db:dpc /collection:facilities /type:csv /file:facilities.csv /headerline
2020-09-01T14:49:28.410+0900 connected to: localhost
2020-09-01T14:49:29.428+0900 [#####...................] dpc.facilities 144KB/659KB (21.9%)
2020-09-01T14:49:30.485+0900 [#######################.] dpc.facilities 659KB/659KB (100.0%)
2020-09-01T14:49:30.486+0900 imported 4764 documents
コメント
コメントを投稿