配列の評価方法とツール
2005/7/19追記:
配列の評価ツール改良
に改良版があります.
使ってみようと思った方はこちらをどうぞ.
----
kakasi等の形態素解析ツールも含め、配列界隈のツール集とFAQをまとめた「自作配列を始める人への手引き」ページみたいなのがあるとちょっと嬉しいかな~・・・と思う今日この頃。
手引きページは作れないですが,ツールは作ってみました.
いろいろな方が同種のスクリプトを作っているのですが,配列の定義をするのが大変なので,姫踊子草のコンフィグファイルベースで.
今までLinuxで解析していたスクリプトをまとめなおして,キー評価部分を強化して,Windows上向けにしたものです.
http://www.mikage.to/act/perlscript.lzh
Chasen for Windows をインストール後,添付ドキュメントに従って操作すれば,簡単にn-gramの頻出単語の一覧と,各配列でのキー評価が行えます.
SKYとか月配列の姫踊子草定義ファイルとか,誰か集めて置いておいてくれると解析に便利?
■スクリプトの処理内容
入力:http://www.mikage.to/act/data.txt
出力1:http://www.mikage.to/act/step1.txt
タイピングが消えているのは,Chasenで未知語扱いだったため
出力2:http://www.mikage.to/act/step2.txt
出力3:http://www.mikage.to/act/step3.html
出力内容はあまり検証してないので,一部間違っているかも.(^^;
他にこんなのを測定したいとか要望があれば,対応するかもしれないのでコメントorTBにてどうぞ.
2キーの時間からのタイピング時間を求めるとかもおもしろそうですが,同時打鍵系をどうするかの問題があってあきらめました.
« ACT配列(M1版) | Main | 姫踊子草配列 »
The comments to this entry are closed.
Comments
姫踊子草の定義ファイルから直接、呼び出せるのは使い勝手が良さそうですね。解析スクリプトごとに定義を書き換えるのは、今まで個人的には面倒に感じていたところなので、そうした工夫は有り難いです。
出力サンプルで、少し不思議に思ったのは、NICOLAに対する3方式の結果が、結構、違っているように見えるのですが、どうしてでしょうか?記号のあたりで結果が変わってしまうんですかね・・・。
ところでふと気付いたのですが、そういえば、姫踊子草の定義ファイルには、普通のローマ字入力やかな入力の定義ファイルは(当然ながら)ないんですよね(笑)。
Posted by: Uジロー | Tuesday, June 07, 2005 11:48 AM
>ところでふと気付いたのですが、そういえば、姫踊子草
>の定義ファイルには、普通のローマ字入力やかな入力
>の定義ファイルは(当然ながら)ないんですよね(笑)。
Qwertyローマ字はないですな(^^;
旧JISかなの方は練習ソフト対応機能の関係でちゃんとあるわけですが。
Posted by: 鈴見咲君高 | Wednesday, June 08, 2005 12:32 AM
Qwerty と付けたけど Dvorak ローマ字とかがあるわけではないです。一般に通常のローマ字はなし。すんません。
Posted by: 鈴見咲君高 | Wednesday, June 08, 2005 12:34 AM
大変、失礼いたしました・・・。
姫踊子草には、新旧JISカナ配列そろい踏みしていましたね。適当なことを書いてしまって申し訳ありません。
Posted by: Uジロー | Wednesday, June 08, 2005 08:20 PM
あ,確かにありましたね….
(わたしも今気づきました(^^;
ということはローマ字だけ作ればそろうのかな.
Posted by: みかげ | Wednesday, June 08, 2005 10:21 PM
かな系配列だと打鍵と出た文字が1対1の対応だから簡単ですが,
ローマ字拡張系だと定義ファイルから直接評価スクリプトを作るのは,
省打鍵拡張があるせいで打鍵と文字の1対1対応が崩れているので.
厳しくないですかね?
Posted by: GOTO | Sunday, July 03, 2005 09:38 PM
はい,結構めんどくさかったです.
上のスクリプトはその辺の処理も入っています.(いろいろなパターンを考慮し,打鍵数の最も少ないもののうち1つを採用します.)
http://blog.mikage.to/mika/2005/07/post_fa18.html
の方で,手軽に試せるCGIも作成してみました.
Posted by: みかげ | Sunday, July 03, 2005 10:41 PM