フォロワー

2021年6月27日日曜日

余裕ですかね。

 いまの自分はやることが多いが、意外と慌てず一歩一歩現場と歩んでいき、地道にデータ入力から可視化までの利便性、完全性と正確性を追求する余裕が出ております。SpotfireというBIツールにハマり、人に使い方を教えながらもまたその恩恵を受けているといういい循環も大きいですね。大体自分のようなポストにいる人たちはあまりプログラムを書く余裕もないだが、自分は幸せのほうと思います。

2021年6月11日金曜日

BIルールで形態素分析:Spotfire + NMecab + Iron Python + DataTable





import clr    

clr.AddReferenceToFileAndPath(r"D:/Work/NMecab/bin/LibNMeCab.dll")

import System

from System import *

import NMeCab

from NMeCab import *


import Spotfire.Dxp.Application

from Spotfire.Dxp.Data import *

from Spotfire.Dxp.Application.Visuals import VisualContent

from System.Collections.Generic import HashSet

from System.IO import FileStream, FileMode, File, MemoryStream, SeekOrigin, StreamWriter


import System.String

from Spotfire.Dxp.Data.Import import TextDataReaderSettings

from Spotfire.Dxp.Data.Import import TextFileDataSource


def LoadCSV(dataTableName, stream):

settings = TextDataReaderSettings()

settings.Separator = ","

settings.AddColumnNameRow(0)

settings.ClearDataTypes(True)

settings.SetDataType(0, DataType.String)

settings.SetDataType(1, DataType.String)

settings.SetDataType(2, DataType.Real)

settings.SetDataType(3, DataType.Real)

stream.Seek(0, SeekOrigin.Begin)

fs = TextFileDataSource(stream, settings)

if Document.Data.Tables.Contains(dataTableName):

Document.Data.Tables[dataTableName].ReplaceData(fs)

else:

Document.Data.Tables.Add(dataTableName, fs)



stream = MemoryStream()


DicDir = r"D:\Work\NMecab\dic\ipadic"


t=MeCabTagger.Create(DicDir)


nodes = t.Parse( sentence )


result = ""

csvWriter = StreamWriter(stream) #, Encoding.UTF8)

csvWriter.WriteLine("COL01,COL02,COL03,COL04,COL05,COL06,COL07,COL08,COL09,COL10\r\n")


for node in nodes :

print node.Surface + "\t" + node.Feature

result = result +  node.Surface + "\t" + node.Feature + "\n"


csvWriter.WriteLine(node.Surface + "," + node.Feature + "\n")


Document.Properties['NMeCabPaserResult'] = result



csvWriter.Flush()

LoadCSV("test", stream)


exit


Spotfire からMongoDBのデータを分析する(DPC公開データをサンプルに)

 MongoDBはスキーマを定義しなくても下記のように簡単にコマンド一行でCSVをインポートできます。

C:\Users\user\Desktop>mongoimport /db:dpc /collection:facilities /type:csv /file:facilities.csv /headerline

2020-09-01T14:49:28.410+0900    connected to: localhost

2020-09-01T14:49:29.428+0900    [#####...................] dpc.facilities       144KB/659KB (21.9%)

2020-09-01T14:49:30.485+0900    [#######################.] dpc.facilities       659KB/659KB (100.0%)

2020-09-01T14:49:30.486+0900    imported 4764 documents

MongoDBシェルで二つのコレクションをJOINさせるのもいいのですが、データのJOINに強いBIツール、Spotfireを使えば、複雑なシェルやSqlを書く必要もなくなります。

MongoDBは普通のSqlを使うデータベースのようにBIツールから接続するには、有償のODBCドライバーもありますが、こちらは無償のBIコネクターを使います。

ただ、このコネクターは、MySQL ODBC Unicode Driverに依存しているのと、Mysqlのドライバーのインストールは、Visual Studio 2015、2017、および 2019 用 Microsoft Visual C++ 再頒布可能パッケージが必要なので、両方も用意しましょう。

MongoDBがインストールされている前提で話を進みたいので、インストールは下記のページを参考してください。個人的にTB単位の外付けSSDをMongoDBを持ち歩くので、ポータルバージョンを使っています。


まず、BIコネクターに下記のコマンドでschema.drdlを作ります。(コレクションが増えた場合、作り直す必要があるようです)

C:\Program Files\MongoDB\Connector for BI\2.14\bin>mongodrdl.exe --host localhost --db dpc --out schema.drdl

そして、下記のコマンドでlocalhost 3307

C:\Program Files\MongoDB\Connector for BI\2.14\bin>mongosqld.exe

うまくリスナーが待機状態になる場合は、下記のようにコマンドプロンプトに吐き出されます。

2020-09-01T17:42:24.887+0900 I CONTROL    [initandlisten] mongosqld starting: version=v2.14.0 pid=66988 host=DESKTOP-T5OEMLV
2020-09-01T17:42:25.168+0900 I CONTROL    [initandlisten] git version: 6fa82d07a176aeee28f685c3f8e8806832c769b0
2020-09-01T17:42:25.168+0900 I CONTROL    [initandlisten] OpenSSL version OpenSSL 1.0.2n-fips  7 Dec 2017 (built with OpenSSL 1.0.2s  28 May 2019)
2020-09-01T17:42:25.168+0900 I CONTROL    [initandlisten] options: {}
2020-09-01T17:42:25.168+0900 I CONTROL    [initandlisten] ** WARNING: Access control is not enabled for mongosqld.
2020-09-01T17:42:25.168+0900 I CONTROL    [initandlisten]
2020-09-01T17:42:25.172+0900 I NETWORK    [initandlisten] waiting for connections at 127.0.0.1:3307
2020-09-01T17:42:25.909+0900 I SCHEMA     [sampler] sampling MongoDB for schema...
2020-09-01T17:42:26.635+0900 I SCHEMA     [sampler] mapped schema for 4 namespaces: "node_memo_demo" (1): ["memos"]; "test" (1): ["test"]; "dpc" (2): ["facilities", "mdc01ope"]

そして、odbcを検索して、ODBCデータソース(64ビット)を起動してください。




システムDSNを追加し、MySQL ODBC Unicode Driverを選んでください。




データソース名、データベース名は自分の環境に合わせて変更してください。
問題がなければ、Testをクリックすれば、接続成功のような表示がされます。

MongoDBのCSVインポートは、下記の記事を参考してください。


Spotfireは画像の感じになります。

データを追加:その他>ODBC~



データソース:ODBC~>mongodb



OKをクリック、また下の窓のOKをクリックして、次のSQLステートメント画面に
select * from facilities を入力して、データソース名を指定してOKをクリックすれば、
施設概要が取り込まれます。




それから、MDC01手術のデータ(mdc01ope)も最初の+>その他>ODBC~の手順から上記と似た手順で取り込みましょう。

両方のデータが取り込まれたら、データキャンパスの画面からJIONさせます。(詳細手順は割愛します)



JOINしたデータは下記の画像のように、施設概要の情報がMDC01の件数や在院日数に結合している形になりました。


あとは、自由に結合した項目を軸にいろいろなビジュアライゼーションが作れます。





【関連するURL等】

MySQL ODBC Unicode Driver

https://dev.mysql.com/downloads/file/?id=497108

mysql-connector-odbc-8.0.21-winx64.msi

のダウンロード 

https://support.microsoft.com/ja-jp/help/2977003/the-latest-supported-visual-c-downloads

Spotfire write data to oracle by python importing ODP.NET (Oracle.DataAccess.dll)

 # Write data to Oracle server ver. 19


import clr    

clr.AddReferenceToFileAndPath(r"C:\app\Administrator\product\11.2.0\client_32\ODP.NET\bin\4\Oracle.DataAccess.dll")

import System

from System import *

import Oracle.DataAccess

from Oracle.DataAccess import *


oradb="User Id=username; Password=userpassword; Data Source=(DESCRIPTION =(ADDRESS_LIST = (ADDRESS = (PROTOCOL = TCP)(HOST = 127.0.0.1)(PORT = 1521)))(CONNECT_DATA =(SERVICE_NAME = MYDWH)))"


conn= Client.OracleConnection(oradb)

conn.Open()


sql = "insert into  RYSYSM.COMMONTEMP (JOBNAME,COL01) VALUES('ODR.NET','test')"

cmd = Client.OracleCommand(sql,conn)


dr=cmd.ExecuteNonQuery()


# you can also query by ExecuteReader()

#sql = "select * from  RYSYSM.COMMONTEMP where JOBNAME='ODP.NET"

#dr=cmd.ExecuteReader()

#dr.Read()

#print dr.GetString(0)

#print dr.GetString(1)


conn.Close()

conn.Dispose()


exit

2021年6月8日火曜日

BIツールSpotfire server がインターフェイスサーバの代わりに定期的にデータベースからデータを取得する

 当院のある部門システムはPostgreSQLを使って、データウェアハウス(DWH)のオラクルにデータベースリンクが作られていいます。その部門システムの文書検索機能になぜか文書作成日が表示されていません。簡単にいえば、お金をかけて業者にカラム追加をすれば、済む話ですが、1日2会のデータ取得が十分なので、自力で取ることにしました。

ここで紹介したいのは、Oracleのスケジュール機能でもWindowsのタスクスケジューラ機能でもなくBIツールのSpotfire serverのAutomationの機能です。

まず、一時的にデータを格納する一時表を作って、データを取得する前に前回のデータを全部削除する形にします。

ここで使ったのは、DWHをデータソールにして、一時表のインフォメーションリンクを削除用と取得用にします。インフォメーションリンクに設定できるSQLは更新前、クエリーと更新後があり、削除用のインフォメーションリンクは、DELETE文を更新前に設定して、取得用のほうは、INSERT INTO ~ SELECTを入れます。この2つインフォメーションリンクをデータテーブルにした分析ファイルを作ってAutomationのJobに削除用分析ファイルと取得用分析ファイルを順番に開くだけで、一時表の中身が自動的に更新されます。

この方法で分析用のデータのみを取得し、データマートを簡単に構築できます。