« 姫踊子草でのスペース親指鍵 | Main | 最短キータイプ抽出 »

Tuesday, May 31, 2005

文字頻度

会社から持ち帰ったメール(添付ファイル含み443M)と,会議などのメモ書き681Kから頻度情報を計算してみた.
まずは形態素分析すると,出力データが141M+7Mくらいに.
これに対して 2-gram から 5-gram で頻度を求めて,2~4-gram に関しては前後への文字の付き方も
一緒に出力するようにしてみた.

メモリ消費が1.2G…だったけど,まぁなんとかセーフ.

結果は…
http://www.mikage.to/act/gramcount.res.txt

中身の確認はこれから.
後でゆっくり眺めよう・・・
ざっと見たところ,署名のせいと思われるけど,自分の名前が異様にでていることはとりあえず確認(^^;
(しかも,さわわたり,と読まれている…)

参考までにプログラムソース.
(Text::Chasenがうまく入らなかったのでかっこわるい方法で対応しるのは気にしない…)
http://www.mikage.to/act/wordcheck.pl.txt
http://www.mikage.to/act/gramcount.pl.txt


姫踊子草の配列ファイルとカナファイルを読み込んで,タイプ文字に直してくれるスクリプトでも組むべきかなぁ.
すでに省略入力でかなりタイプ数が少ない部分もあるだろうし,効率的に,効率が悪い文字列を取り出したいところ.

|

« 姫踊子草でのスペース親指鍵 | Main | 最短キータイプ抽出 »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



TrackBack


Listed below are links to weblogs that reference 文字頻度:

« 姫踊子草でのスペース親指鍵 | Main | 最短キータイプ抽出 »