« 英字配列と日本語配列 | Main | ロック続き »

Sunday, July 24, 2005

配列の評価ツール改良その2

2006/03/04追記

配列の評価方法とツール改良その3に新しい記事があります.

----

配列の評価方法とツールに書いたツールを改良しました.

いくつか指摘していただいた点を修正して,見た目を変更しました.
%表示を加えたことでかなり横に長くなってしまったので,2段表示にしました.
(ちょっとみにくいかもしれません...)

http://www.mikage.to/keytool/perlscript.lzh

Chasen for Windows をインストール後,添付ドキュメントに従って操作すれば,簡単にn-gramの頻出単語の一覧と,各配列でのキー評価が行えます.
SKYとか月配列の姫踊子草定義ファイルとか,誰か集めて置いておいてくれると解析に便利?

■スクリプトの処理内容

入力:http://www.mikage.to/keytool/data.txt
出力1:http://www.mikage.to/keytool/step1.txt
出力2:http://www.mikage.to/keytool/step2.txt
出力3:http://www.mikage.to/keytool/step3.html

結果の値が正しくないとか,他にこんなのを測定したいとか要望があれば,対応しようと思いますのでコメントorTBにてどうぞ.

|

« 英字配列と日本語配列 | Main | ロック続き »

Comments

漢直の解析はできないでしょうか?

私はTコードを練習している者です。

Tコード・TUTコード・超絶技巧・Gコード等、
各種漢直間でこういう比較ができて、
それぞれの特色が判ると面白いと思うのですが、残念ながらそういうものが見当りません。

Posted by: たつのり | Wednesday, August 17, 2005 at 06:12 PM

 スクリプト側の対応が可能かどうかという話とは別に、少なくとも「姫踊子草用の定義ファイルとして、各種漢字直接入力用の定義を書くことが可能かどうか」が問題になりそうですね。
 姫踊子草自体はかな系・行段(≒ローマ字)系のみの対応ですし、姫踊子草用定義では漢字を制御文字として使っていますから。
 興味深い所ですが、かなりの労力が必要になりそうですね…

Posted by: かえで(yfi) | Wednesday, August 17, 2005 at 10:25 PM

漢直の変換定義ファイルが,姫踊子草では無い形でもいいので,1つにまとまっていたりする(もしくは容易にまとめられる)のであれば出来そうです.
それぞれの漢直の配列を個別に解析・・・となるとちょっと気力的に無理です(^^;

Posted by: みかげ | Thursday, August 18, 2005 at 12:23 AM

おお、早速のお返事ありがとうございます。

各種漢直の定義ファイルは、もちろん私が探してきてまとめるつもりでおりました。で、実際探したところ…

Tコードの資料は、ここにありました。
http://vimrc.hp.infoseek.co.jp/tcode.txt

TUTコードの資料は、ここにありました。
http://www.crew.sfc.keio.ac.jp/~chk/data/codelist.html

Gコードの資料は、http://www.asahi-net.or.jp/~QX5S-
の「ダウンロード」にあるはずなのに、実際はリンク切れです。

「超絶技巧入力」や「風」の定義ファイルは発見できませんでした。(法的権利絡みで未公開なのかもしれません)

というわけで、探せたのは結局、TとTUTだけです。
てっきり、各種漢直の発案者が公開しているものと思いこんでいました。

さて、上のTとTUTの資料を元にみかげさんの評価ツールで解析できるものでしょうか?(できるとすれば、どういう形にまとめればよいでしょうか?)

TやTUTは1980年代に膨大な日本語データを分析して、運指の最適化を図った、と聞いているのですが、果たしてどうか?
私の予想では、旧JISかなよりましな程度に過ぎないのではないか、と思っているのですが…

Posted by: たつのり | Thursday, August 18, 2005 at 12:31 PM

tcode.txt の形式なら簡単に対応できそうです.
ただ,いくつか問題があります.
・コードに無い漢字の扱いはどうしましょう?
・TUTのひらがなカタカナ,拗音撥音なども入力規則が必要です.
この辺のルールを定義ファイルの形におとせればいけそうです.

Posted by: みかげ | Thursday, August 18, 2005 at 11:52 PM

・TUTの仮名定義データはここにありました。
http://www.crew.sfc.keio.ac.jp/~chk/tut_kana.html
(下の方にある半濁音を3打で入力する方法以下はとりあえず無視でいいようです。)

・コードにない漢字の扱い
う~ん、困りました。(^_^;)
総打鍵数の計算では便宜的に、コードにない漢字が出現するたびに罰打6を加算する、という方法が考えられます。
(部首合成を使えば最短6打で入力できるからです)
しかし運指としては、計算のしようがないので無視するよりなさそうです。

Posted by: たつのり | Friday, August 19, 2005 at 01:24 PM

・TUTの仮名定義について補足です。
カタカナを入力するには、何かのキーを打ってカタカナモードにして入力し、次にひらがなに戻す所でまた同じキーを打ってひらがなモードに戻すようです。
例えば、
ひらがな@かたかな@ひらがな
→ひらがなカタカナひらがな
となるようです。

けれども、これも便宜的に「@」を無視して、カタカナもひらがなと同一視して構わないと思われます。
(漢直部分の解析が主眼なので)

Posted by: たつのり | Friday, August 19, 2005 at 02:05 PM

 Gコードの件ですが、「かんな用」の定義が一番シンプルで流用しやすいかと。
  http://www.asahi-net.or.jp/~QX5S-MSMR/renkin/gcode/G-CFW.html

 うーん、これってもしかして、mikadoさんとこのスクリプトに通しても上手くいくのかもしれません(定義ファイルはjgawkなどで整形してスクリプトに貼る)。
  http://www.myjavaserver.com/~tsuki/data/index.html
 (ただし、コードにない文字があると誤打2になる…とかいう問題はあるはずですが)

 「漢直系を使っていらっしゃる方」がこの手の評価スクリプトに興味を持ってくださると、さらに良い感じなのかも…とか思ってみたり。

Posted by: かえで(yfi) | Saturday, August 20, 2005 at 07:12 AM

う~ん、「指運解析CGIスクリプト」とActivePerlをダウンロードする所まではやったのですが、知識不足で何とも歯が立ちません。残念…斬り!!

私はmassangeanaさんの「キーボードによるかな入力効率の比較」
http://www.asahi-net.or.jp/~ez3k-msym/charsets/laycomp.htm
を見たのがきっかけで配列に興味を持つようになった口なので、この種の評価には関心があります。以前「花」と「月」を自分で練習してみたら、打鍵感と評価データが一致していたので感心したことがありました。
で、漢直にもこの種の評価があると面白いな、と思ったわけです。

Posted by: たつのり | Saturday, August 20, 2005 at 12:03 PM

 お役に立てるかどうかは解りませんが、「指運解析CGIスクリプト」導入時に躓いたところをメモしていましたので、とりあえずご案内させていただきます。
  http://d.hatena.ne.jp/maple_magician/20050505/aska
 また、そのままでは「指運解析CGIスクリプト」が漢直系に対応できないようで、解析しようとして再び躓いてしまいました…こちらもメモを残してみました。
  http://d.hatena.ne.jp/maple_magician/20050820/1124529773

 とりあえず解析してみた結果を「えもじならべあそび」に貼ってみました。
  http://www.eurus.dti.ne.jp/~yfi/keylayout/#data
 ただし、なぜか英字が上手く通せないようです。
 著作権フリーな純和文のテキストを通すなどして、もう一度検証しないとダメかもしれませんね…。

Posted by: かえで(yfi) | Saturday, August 20, 2005 at 10:02 PM

とりあえず時間が取れ次第T-CODEの書式でやってみますね.
英文は無視でよいとして,漢直系で欲しい項目ってありますかねえ.
運指の種類数は追加してみようかと思ってます.
(定義ではなくて,実際に使用した種類数)

Posted by: みかげ | Sunday, August 21, 2005 at 01:01 AM

>かえで様
ありがとうございます。
・「指運解析CGIスクリプト」導入時のメモ、保存してじっくり読ませていただくことにします。
・解析結果、ひらがなだけとはいえ、興味深いですね~。TUTとGについては入力規則からある程度の予測があったのですが、Tについては見当がつきませんでした。こういう風にはっきりと数字に現れると、計算機の威力を実感しますね。Tについては「思ったより悪くない」と感じました。漢直に取り組んでみようかなと考えている人にとっても、参考になるデータだと思います。他のローマ字系配列やカナ系配列とも比較したりして、しばらく楽しめそうです。

>みかげ様
http://pc8.2ch.net/test/read.cgi/unix/1082032043/
の583で私が使いこなせずにいることを報告したら、スキルのある方が585以降で解析して下さっています。
何だかすれ違いのようになってしまって大変申し訳けありません!m(_ _)m

Posted by: たつのり | Sunday, August 21, 2005 at 03:51 PM

お,遅かったですか(^^;
配列の解析はどのデータでやったんでしょうね.
まとめておくと便利なきはするので,一応作ってみようかとは思います.

Posted by: みかげ | Sunday, August 21, 2005 at 11:16 PM

サンプル・データは日本国憲法(歴史的仮名遣い)と「めくらぶどうと虹」(現代仮名遣い)とのことです。

>まとめておくと便利なきはするので,一応作ってみようかとは思います.
漢直では今までこの種の解析データが皆無だったので、一つでもデータが増えるのはありがたいです。漢直では、サンプルによる差が大きいと思われるので、異なるサンプルでの解析は貴重です。

Posted by: たつのり | Monday, August 22, 2005 at 03:27 AM

交互打鍵率の算出方法についてなのですが、
右手→左手
または
左手→右手となる2連続ストロークをすべて数え、
総打鍵数で割ってみましたところ、このツールの出す答と大きく食い違います。
確認してみていただけないでしょうか。

Posted by: porte | Saturday, February 18, 2006 at 09:55 AM

ご指摘ありがとうございます.
確かに,総キー数から考えると,交互打鍵数がかなり少ないですね.
どこか間違っていそうです.
(左左+右右+交互打鍵=キー数-1のはずですし・・・)

PCが不調なので,詳しくは後ほど確認してみます.

Posted by: みかげ | Saturday, February 18, 2006 at 06:24 PM

よろしくお願いします。
お忙しい中、無理を言ってしまって申し訳ありません。
便利なツールを提供して下さってありがとうございます。

Posted by: porte | Thursday, March 02, 2006 at 03:07 PM

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/33589/5133096

Listed below are links to weblogs that reference 配列の評価ツール改良その2:

» 下駄配列を解析、その2 [ローマ字入力でもなく、かな入力でもなく]
 みかげさんの配列評価スクリプトが新しくなりました。ということで再び下駄配列を解析。  今回のスクリプトからQWERTYローマ字の『姫踊子草』設定ファイルも同梱されていて、こっちの方がこの前私が作ったのよりも「っ」や「ん」などの定義が正確なので、今回からこのファイルで解析しています。  でも、ローマ字打ちの人って、「ん」はこの定義ファイル通りに打ってますか? 私がローマ字で打つときは、「ん」の次が母音か子音なんて考えるのが面倒で、「ん」は全部[N]→[N]で打っちゃいます。  閑話休題... [Read More]

Tracked on Wednesday, July 27, 2005 at 11:33 PM

« 英字配列と日本語配列 | Main | ロック続き »