% tar xvfz shaney.tar.gz; cd shaney; make; sudo mv shaney /usr/local/bin/
% head -2000 bochan.txt| mecab -O wakati | shaney | tr -d '\n' | sed -e 's/。/。\n/g'| head -10
坊っちゃんの先頭2000行をサンプルする。 mecabで分かち書きをする。 shaneyで隣接データをとり、それにしたがって、新しい連接を生成する。 trで改行を覗く。 sedで「。」を「。+改行」にして、文のリストを作る。 head -10 で先頭の10行分を取り出す。
1 坊っちゃん何時家を御開き下さったと又一杯しぼって反古にすると狸は生徒を指揮した。 2 おれは、生徒も帰ったら、十五人目にも務めるのは、じれったくない。 3 おれは三時間目は恐ろしいものがある婦人だが、生憎風邪を引いて教員控所へ這入ろうと、よく調べるとは限らなかった。 4 母が死んでみた様な風を、飛びかかっては大抵な人で先祖代々の屋敷が料理屋さ。 5 嘘をつく。 6 待ち合せた連中は、一所に宿屋へ茶代をやるまでは、君赤シャツは曲者だと思う途端に、尻込みをするから云えない。 7 一人だって、腹が減るかも知れないですね。 8 どうれで変だと抜かしたら、出て見まほうか。 9 当人の説明で取り去られて、長くでも困らない、却ってこの清の事だから、仕方がないがないから、議論じゃ叶わなくっちゃ利かない。 10 それじゃ私が安閑として人を見るや否や、来て勝手は知らぬ。
% head -15 bochan.txt| mecab | gawk '{ if ($4) print $4}' | sort | uniq -c | sort -nr | nl | awk '{print $1,$2}' | graph -Tsvg --x-label "rank" --y-label "number of type"
坊っちゃん冒頭2000行
坊っちゃん冒頭1000行
坊っちゃん冒頭100行
坊っちゃん冒頭10行
坊っちゃん冒頭5行
これが教科書。生協で売っています。
(c) 2016-7 Hilofumi Yamamoto All rights reserved.