文字頻度
会社から持ち帰ったメール(添付ファイル含み443M)と,会議などのメモ書き681Kから頻度情報を計算してみた.
まずは形態素分析すると,出力データが141M+7Mくらいに.
これに対して 2-gram から 5-gram で頻度を求めて,2~4-gram に関しては前後への文字の付き方も
一緒に出力するようにしてみた.
メモリ消費が1.2G…だったけど,まぁなんとかセーフ.
結果は…
http://www.mikage.to/act/gramcount.res.txt
中身の確認はこれから.
後でゆっくり眺めよう・・・
ざっと見たところ,署名のせいと思われるけど,自分の名前が異様にでていることはとりあえず確認(^^;
(しかも,さわわたり,と読まれている…)
参考までにプログラムソース.
(Text::Chasenがうまく入らなかったのでかっこわるい方法で対応しるのは気にしない…)
http://www.mikage.to/act/wordcheck.pl.txt
http://www.mikage.to/act/gramcount.pl.txt
姫踊子草の配列ファイルとカナファイルを読み込んで,タイプ文字に直してくれるスクリプトでも組むべきかなぁ.
すでに省略入力でかなりタイプ数が少ない部分もあるだろうし,効率的に,効率が悪い文字列を取り出したいところ.
Recent Comments