« 英字配列と日本語配列 | Main | ロック続き »

Sunday, July 24, 2005

配列の評価ツール改良その2

2006/03/04追記

配列の評価方法とツール改良その3に新しい記事があります.

----

配列の評価方法とツールに書いたツールを改良しました.

いくつか指摘していただいた点を修正して,見た目を変更しました.
%表示を加えたことでかなり横に長くなってしまったので,2段表示にしました.
(ちょっとみにくいかもしれません...)

http://www.mikage.to/keytool/perlscript.lzh

Chasen for Windows をインストール後,添付ドキュメントに従って操作すれば,簡単にn-gramの頻出単語の一覧と,各配列でのキー評価が行えます.
SKYとか月配列の姫踊子草定義ファイルとか,誰か集めて置いておいてくれると解析に便利?

■スクリプトの処理内容

入力:http://www.mikage.to/keytool/data.txt
出力1:http://www.mikage.to/keytool/step1.txt
出力2:http://www.mikage.to/keytool/step2.txt
出力3:http://www.mikage.to/keytool/step3.html

結果の値が正しくないとか,他にこんなのを測定したいとか要望があれば,対応しようと思いますのでコメントorTBにてどうぞ.

|

« 英字配列と日本語配列 | Main | ロック続き »

Comments

漢直の解析はできないでしょうか?

私はTコードを練習している者です。

Tコード・TUTコード・超絶技巧・Gコード等、
各種漢直間でこういう比較ができて、
それぞれの特色が判ると面白いと思うのですが、残念ながらそういうものが見当りません。

Posted by: たつのり | Wednesday, August 17, 2005 06:12 PM

 スクリプト側の対応が可能かどうかという話とは別に、少なくとも「姫踊子草用の定義ファイルとして、各種漢字直接入力用の定義を書くことが可能かどうか」が問題になりそうですね。
 姫踊子草自体はかな系・行段(≒ローマ字)系のみの対応ですし、姫踊子草用定義では漢字を制御文字として使っていますから。
 興味深い所ですが、かなりの労力が必要になりそうですね…

Posted by: かえで(yfi) | Wednesday, August 17, 2005 10:25 PM

漢直の変換定義ファイルが,姫踊子草では無い形でもいいので,1つにまとまっていたりする(もしくは容易にまとめられる)のであれば出来そうです.
それぞれの漢直の配列を個別に解析・・・となるとちょっと気力的に無理です(^^;

Posted by: みかげ | Thursday, August 18, 2005 12:23 AM

おお、早速のお返事ありがとうございます。

各種漢直の定義ファイルは、もちろん私が探してきてまとめるつもりでおりました。で、実際探したところ…

Tコードの資料は、ここにありました。
http://vimrc.hp.infoseek.co.jp/tcode.txt

TUTコードの資料は、ここにありました。
http://www.crew.sfc.keio.ac.jp/~chk/data/codelist.html

Gコードの資料は、http://www.asahi-net.or.jp/~QX5S-
の「ダウンロード」にあるはずなのに、実際はリンク切れです。

「超絶技巧入力」や「風」の定義ファイルは発見できませんでした。(法的権利絡みで未公開なのかもしれません)

というわけで、探せたのは結局、TとTUTだけです。
てっきり、各種漢直の発案者が公開しているものと思いこんでいました。

さて、上のTとTUTの資料を元にみかげさんの評価ツールで解析できるものでしょうか?(できるとすれば、どういう形にまとめればよいでしょうか?)

TやTUTは1980年代に膨大な日本語データを分析して、運指の最適化を図った、と聞いているのですが、果たしてどうか?
私の予想では、旧JISかなよりましな程度に過ぎないのではないか、と思っているのですが…

Posted by: たつのり | Thursday, August 18, 2005 12:31 PM

tcode.txt の形式なら簡単に対応できそうです.
ただ,いくつか問題があります.
・コードに無い漢字の扱いはどうしましょう?
・TUTのひらがなカタカナ,拗音撥音なども入力規則が必要です.
この辺のルールを定義ファイルの形におとせればいけそうです.

Posted by: みかげ | Thursday, August 18, 2005 11:52 PM

・TUTの仮名定義データはここにありました。
http://www.crew.sfc.keio.ac.jp/~chk/tut_kana.html
(下の方にある半濁音を3打で入力する方法以下はとりあえず無視でいいようです。)

・コードにない漢字の扱い
う~ん、困りました。(^_^;)
総打鍵数の計算では便宜的に、コードにない漢字が出現するたびに罰打6を加算する、という方法が考えられます。
(部首合成を使えば最短6打で入力できるからです)
しかし運指としては、計算のしようがないので無視するよりなさそうです。

Posted by: たつのり | Friday, August 19, 2005 01:24 PM

・TUTの仮名定義について補足です。
カタカナを入力するには、何かのキーを打ってカタカナモードにして入力し、次にひらがなに戻す所でまた同じキーを打ってひらがなモードに戻すようです。
例えば、
ひらがな@かたかな@ひらがな
→ひらがなカタカナひらがな
となるようです。

けれども、これも便宜的に「@」を無視して、カタカナもひらがなと同一視して構わないと思われます。
(漢直部分の解析が主眼なので)

Posted by: たつのり | Friday, August 19, 2005 02:05 PM

 Gコードの件ですが、「かんな用」の定義が一番シンプルで流用しやすいかと。
  http://www.asahi-net.or.jp/~QX5S-MSMR/renkin/gcode/G-CFW.html

 うーん、これってもしかして、mikadoさんとこのスクリプトに通しても上手くいくのかもしれません(定義ファイルはjgawkなどで整形してスクリプトに貼る)。
  http://www.myjavaserver.com/~tsuki/data/index.html
 (ただし、コードにない文字があると誤打2になる…とかいう問題はあるはずですが)

 「漢直系を使っていらっしゃる方」がこの手の評価スクリプトに興味を持ってくださると、さらに良い感じなのかも…とか思ってみたり。

Posted by: かえで(yfi) | Saturday, August 20, 2005 07:12 AM

う~ん、「指運解析CGIスクリプト」とActivePerlをダウンロードする所まではやったのですが、知識不足で何とも歯が立ちません。残念…斬り!!

私はmassangeanaさんの「キーボードによるかな入力効率の比較」
http://www.asahi-net.or.jp/~ez3k-msym/charsets/laycomp.htm
を見たのがきっかけで配列に興味を持つようになった口なので、この種の評価には関心があります。以前「花」と「月」を自分で練習してみたら、打鍵感と評価データが一致していたので感心したことがありました。
で、漢直にもこの種の評価があると面白いな、と思ったわけです。

Posted by: たつのり | Saturday, August 20, 2005 12:03 PM

 お役に立てるかどうかは解りませんが、「指運解析CGIスクリプト」導入時に躓いたところをメモしていましたので、とりあえずご案内させていただきます。
  http://d.hatena.ne.jp/maple_magician/20050505/aska
 また、そのままでは「指運解析CGIスクリプト」が漢直系に対応できないようで、解析しようとして再び躓いてしまいました…こちらもメモを残してみました。
  http://d.hatena.ne.jp/maple_magician/20050820/1124529773

 とりあえず解析してみた結果を「えもじならべあそび」に貼ってみました。
  http://www.eurus.dti.ne.jp/~yfi/keylayout/#data
 ただし、なぜか英字が上手く通せないようです。
 著作権フリーな純和文のテキストを通すなどして、もう一度検証しないとダメかもしれませんね…。

Posted by: かえで(yfi) | Saturday, August 20, 2005 10:02 PM

とりあえず時間が取れ次第T-CODEの書式でやってみますね.
英文は無視でよいとして,漢直系で欲しい項目ってありますかねえ.
運指の種類数は追加してみようかと思ってます.
(定義ではなくて,実際に使用した種類数)

Posted by: みかげ | Sunday, August 21, 2005 01:01 AM

>かえで様
ありがとうございます。
・「指運解析CGIスクリプト」導入時のメモ、保存してじっくり読ませていただくことにします。
・解析結果、ひらがなだけとはいえ、興味深いですね~。TUTとGについては入力規則からある程度の予測があったのですが、Tについては見当がつきませんでした。こういう風にはっきりと数字に現れると、計算機の威力を実感しますね。Tについては「思ったより悪くない」と感じました。漢直に取り組んでみようかなと考えている人にとっても、参考になるデータだと思います。他のローマ字系配列やカナ系配列とも比較したりして、しばらく楽しめそうです。

>みかげ様
http://pc8.2ch.net/test/read.cgi/unix/1082032043/
の583で私が使いこなせずにいることを報告したら、スキルのある方が585以降で解析して下さっています。
何だかすれ違いのようになってしまって大変申し訳けありません!m(_ _)m

Posted by: たつのり | Sunday, August 21, 2005 03:51 PM

お,遅かったですか(^^;
配列の解析はどのデータでやったんでしょうね.
まとめておくと便利なきはするので,一応作ってみようかとは思います.

Posted by: みかげ | Sunday, August 21, 2005 11:16 PM

サンプル・データは日本国憲法(歴史的仮名遣い)と「めくらぶどうと虹」(現代仮名遣い)とのことです。

>まとめておくと便利なきはするので,一応作ってみようかとは思います.
漢直では今までこの種の解析データが皆無だったので、一つでもデータが増えるのはありがたいです。漢直では、サンプルによる差が大きいと思われるので、異なるサンプルでの解析は貴重です。

Posted by: たつのり | Monday, August 22, 2005 03:27 AM

交互打鍵率の算出方法についてなのですが、
右手→左手
または
左手→右手となる2連続ストロークをすべて数え、
総打鍵数で割ってみましたところ、このツールの出す答と大きく食い違います。
確認してみていただけないでしょうか。

Posted by: porte | Saturday, February 18, 2006 09:55 AM

ご指摘ありがとうございます.
確かに,総キー数から考えると,交互打鍵数がかなり少ないですね.
どこか間違っていそうです.
(左左+右右+交互打鍵=キー数-1のはずですし・・・)

PCが不調なので,詳しくは後ほど確認してみます.

Posted by: みかげ | Saturday, February 18, 2006 06:24 PM

よろしくお願いします。
お忙しい中、無理を言ってしまって申し訳ありません。
便利なツールを提供して下さってありがとうございます。

Posted by: porte | Thursday, March 02, 2006 03:07 PM

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



TrackBack


Listed below are links to weblogs that reference 配列の評価ツール改良その2:

» 下駄配列を解析、その2 [ローマ字入力でもなく、かな入力でもなく]
 みかげさんの配列評価スクリプトが新しくなりました。ということで再び下駄配列を解析。  今回のスクリプトからQWERTYローマ字の『姫踊子草』設定ファイルも同梱されていて、こっちの方がこの前私が作ったのよりも「っ」や「ん」などの定義が正確なので、今回からこのファイルで解析しています。  でも、ローマ字打ちの人って、「ん」はこの定義ファイル通りに打ってますか? 私がローマ字で打つときは、「ん」の次が母音か子音なんて考えるのが面倒で、「ん」は全部[N]→[N]で打っちゃいます。  閑話休題... [Read More]

Tracked on Wednesday, July 27, 2005 11:33 PM

« 英字配列と日本語配列 | Main | ロック続き »