スキップしてメイン コンテンツに移動

BIルールで形態素分析:Spotfire + NMecab + Iron Python + DataTable





import clr    

clr.AddReferenceToFileAndPath(r"D:/Work/NMecab/bin/LibNMeCab.dll")

import System

from System import *

import NMeCab

from NMeCab import *


import Spotfire.Dxp.Application

from Spotfire.Dxp.Data import *

from Spotfire.Dxp.Application.Visuals import VisualContent

from System.Collections.Generic import HashSet

from System.IO import FileStream, FileMode, File, MemoryStream, SeekOrigin, StreamWriter


import System.String

from Spotfire.Dxp.Data.Import import TextDataReaderSettings

from Spotfire.Dxp.Data.Import import TextFileDataSource


def LoadCSV(dataTableName, stream):

settings = TextDataReaderSettings()

settings.Separator = ","

settings.AddColumnNameRow(0)

settings.ClearDataTypes(True)

settings.SetDataType(0, DataType.String)

settings.SetDataType(1, DataType.String)

settings.SetDataType(2, DataType.Real)

settings.SetDataType(3, DataType.Real)

stream.Seek(0, SeekOrigin.Begin)

fs = TextFileDataSource(stream, settings)

if Document.Data.Tables.Contains(dataTableName):

Document.Data.Tables[dataTableName].ReplaceData(fs)

else:

Document.Data.Tables.Add(dataTableName, fs)



stream = MemoryStream()


DicDir = r"D:\Work\NMecab\dic\ipadic"


t=MeCabTagger.Create(DicDir)


nodes = t.Parse( sentence )


result = ""

csvWriter = StreamWriter(stream) #, Encoding.UTF8)

csvWriter.WriteLine("COL01,COL02,COL03,COL04,COL05,COL06,COL07,COL08,COL09,COL10\r\n")


for node in nodes :

print node.Surface + "\t" + node.Feature

result = result +  node.Surface + "\t" + node.Feature + "\n"


csvWriter.WriteLine(node.Surface + "," + node.Feature + "\n")


Document.Properties['NMeCabPaserResult'] = result



csvWriter.Flush()

LoadCSV("test", stream)


exit


コメント

このブログの人気の投稿

自己流思い付き

 長年契約してきたさくらインターネットのVPSに稼働しているWordpressが何らかのものに削除されました。幸い残したいものはこのブログに移したので、あまり困ったことはありませんでした。もうVPSを解約しようと思いますが、今年の11月までの契約なので、正直って迷っております。  職場のホームページサーバがMacmini上のピュアDebianなので、実験台としてVPSを契約したのですが、もう実験しないし、解約してもよいだと思います。   このブログもこれをきっかけにタイトルを変えました。

余裕ですかね。

  いまの自分はやることが多いが、意外と慌てず一歩一歩現場と歩んでいき、地道にデータ入力から可視化までの利便性、完全性と正確性を追求する余裕が出ております。SpotfireというBIツールにハマり、人に使い方を教えながらもまたその恩恵を受けているといういい循環も大きいですね。大体自分のようなポストにいる人たちはあまりプログラムを書く余裕もないだが、自分は幸せのほうと思います。

趣味はなんですか?

 最近、仲間に趣味はなんですかって聞かれたらどう答えますか? う~ん、そうね。パソコンですかね。(いかにもオタクっぽいイメージがありますね。^^;) それともデータ処理ですかね。(ちょっと硬いイメージですかね。>_< もうちょっとよく考えると、データ探しですかね。まあ、一般の人は聞いてもわからないでしょうけど。