前回のJavaで形態素解析-Senの続き。
辞書を作る。辞書作りにはPerlが必要。入ってないからGetして入れる。
http://www.activestate.com/downloads/index.mhtml
変わった拡張子だよね。ここからActivePerlってのを落として入れる。大丈夫、お金取られないから。バージョン?適当でいいすよ。たぶん。色々聞かれる?全部デフォルトでしょ。それでなんか動かなくなったものがあったら環境変数疑っとこう。インストールディレクトリは硬派の証、C直下。
辞書を作る。辞書作りにはPerlが必要。入ってないからGetして入れる。
http://www.activestate.com/downloads/index.mhtml
変わった拡張子だよね。ここからActivePerlってのを落として入れる。大丈夫、お金取られないから。バージョン?適当でいいすよ。たぶん。色々聞かれる?全部デフォルトでしょ。それでなんか動かなくなったものがあったら環境変数疑っとこう。インストールディレクトリは硬派の証、C直下。
あとantも必要。大変だなー。
http://ant.apache.org/
Eclipse使ってるんならどっかにありそうなもんだけど、まあここは新調しておく。
解凍してこんな感じ。
C:\usr\local\apache-ant-1.7.1
そしたらコマンドプロンプトで、辞書フォルダまでいく。ここっすね。
C:\usr\local\sen-1.2.2.1\dic
おもむろに以下のコマンドを打つ。
C:\usr\local\apache-ant-1.7.1\bin\ant -Dperl.bin=C:\Perl\bin\perl.exe
すると、辞書はダウンロードしてくれるわコンパイルしてくれるわの至れり尽くせり。
辞書はdic.csvってのが元になってる。なので新しい定義とかしたかったらここに追記すればいい。
自分の追加分を別ファイルにしたかったらC:\usr\local\sen-1.2.2.1\dic\build.xmlの113行目あたりにコメントアウトされているタグのコメントはずしてdic.csvもそこに入れる。
<arg line="customize_dic.csv dic.csv" />で、custom_dic.csvに追加分の定義をしたら、またコンパイル。
!!注意!!
文字コードが合ってないとうまくいかない!!しかもうまくいってないのがわかりにくい!
IPADICはデフォルトだと全体的にEUCに合わせられているようなので、特に問題がないかぎりはユーザー辞書もEUCにしておく。
で、前回の続きのてきとーなコードを実行してみたら動くはず。
とりあえず以上で。
コメントする