Javaで形態素解析-Sen2

| | コメント(0) | トラックバック(0)
前回のJavaで形態素解析-Senの続き。

辞書を作る。辞書作りにはPerlが必要。入ってないからGetして入れる。

http://www.activestate.com/downloads/index.mhtml
変わった拡張子だよね。ここからActivePerlってのを落として入れる。大丈夫、お金取られないから。バージョン?適当でいいすよ。たぶん。色々聞かれる?全部デフォルトでしょ。それでなんか動かなくなったものがあったら環境変数疑っとこう。インストールディレクトリは硬派の証、C直下。




 あとantも必要。大変だなー。
http://ant.apache.org/
Eclipse使ってるんならどっかにありそうなもんだけど、まあここは新調しておく。

解凍してこんな感じ。
C:\usr\local\apache-ant-1.7.1

そしたらコマンドプロンプトで、辞書フォルダまでいく。ここっすね。
C:\usr\local\sen-1.2.2.1\dic

おもむろに以下のコマンドを打つ。
C:\usr\local\apache-ant-1.7.1\bin\ant -Dperl.bin=C:\Perl\bin\perl.exe

すると、辞書はダウンロードしてくれるわコンパイルしてくれるわの至れり尽くせり。
辞書はdic.csvってのが元になってる。なので新しい定義とかしたかったらここに追記すればいい。
自分の追加分を別ファイルにしたかったらC:\usr\local\sen-1.2.2.1\dic\build.xmlの113行目あたりにコメントアウトされているタグのコメントはずしてdic.csvもそこに入れる。
      <arg line="customize_dic.csv dic.csv" />
で、custom_dic.csvに追加分の定義をしたら、またコンパイル。

!!注意!!
文字コードが合ってないとうまくいかない!!しかもうまくいってないのがわかりにくい!
IPADICはデフォルトだと全体的にEUCに合わせられているようなので、特に問題がないかぎりはユーザー辞書もEUCにしておく。

で、前回の続きのてきとーなコードを実行してみたら動くはず。

とりあえず以上で。

トラックバック(0)

このブログ記事を参照しているブログ一覧: Javaで形態素解析-Sen2

このブログ記事に対するトラックバックURL: http://hirop0164.s326.xrea.com/mt/mt-tb.cgi/193

コメントする


画像の中に見える文字を入力してください。

このブログ記事について

このページは、ぴろしが2008年7月30日 00:02に書いたブログ記事です。

ひとつ前のブログ記事は「Javaで形態素解析-Sen」です。

次のブログ記事は「Windows UPDATEで更新できないとかUSBデバイスが認識されないとか」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。