年齢や受けてきた教育、あるいは読んでいる文章のジャンルによって値は大きくブレるが、英語ネイティブの一般的な読書スピードは大体200~250 word per minutes (WPM) らしい。対して日本人の平均的な英語学習者は80〜150 WPMとか。
日本語ではどうなんだろう。上記irisが引用している論文1では、193WPMと計測されている。一方、眼球運動の論文2によると、653文字/分というデータがある。星新一のショートショートを使用して実験したので、論文や新聞だともう少し遅くなるかもしれない。一般的には、500-700文字/分とされていることが多いらしい。
NLPだと文字数に対する単語密度から50〜60%で計算される。ショートショートはもう少し密度を低く45%くらいとして3、294WPM。日本語だと、200〜300WPMと認識すればいいだろうか。
PLaMo 2のトークナイザを使用して、いつも投稿するメモの総トークン数を計算した。目的は、普段のLLMに関連する開発ではとにかくトークン数がベースとなるため、トークン量の感覚を掴みたいから。PLaMo 2のトークナイザはトークン効率が約2で、上記の読書スピードに近い値な気がする4。ちなみにこのメモは 652トークンで、タイトル下に表示している。
先日のメモ「ブログ投稿のアクティビティカレンダー」で、カラースケールは文字数じゃなくてトークンベースにしたい、みたいなことを書いたので、ついでにBlog Activityもトークン数に切り替えた。
なお、トークン数計算に、テンプレート構文などの無駄な記号を一切考慮していないため、トークン量の感覚が掴めるかは謎。
Standardized Assessment of Reading Performance: The New International Reading Speed Texts IReST | IOVS | ARVO Journals ↩︎
特に根拠はない ↩︎
本来、読書におけるトークナイザと、LLMのためのトークナイザは区別すべきである ↩︎