年齢や受けてきた教育、あるいは読んでいる文章のジャンルによって値は大きくブレるが、英語ネイティブの一般的な読書スピードは大体200~250 word per minutes (WPM) らしい。対して日本人の平均的な英語学習者は80〜150 WPMとか。

What is the Average Reading Speed in Various Languages?
What is the Average Reading Speed in Various Languages?
To find out the average speed people read in their native language, a study took a piece of text and translated it to different languages with surprising results
🔗irisreading.com
Everything You Need to Know About Average Reading Speed
Everything You Need to Know About Average Reading Speed
Explore the nuances of average reading speed and learn how to improve your reading speed and comprehension with insights from recent research.
🔗swiftread.com

日本語ではどうなんだろう。上記irisが引用している論文1では、193WPMと計測されている。一方、眼球運動の論文2によると、653文字/分というデータがある。星新一のショートショートを使用して実験したので、論文や新聞だともう少し遅くなるかもしれない。一般的には、500-700文字/分とされていることが多いらしい。

NLPだと文字数に対する単語密度から50〜60%で計算される。ショートショートはもう少し密度を低く45%くらいとして3、294WPM。日本語だと、200〜300WPMと認識すればいいだろうか。

PLaMo 2のトークナイザを使用して、いつも投稿するメモの総トークン数を計算した。目的は、普段のLLMに関連する開発ではとにかくトークン数がベースとなるため、トークン量の感覚を掴みたいから。PLaMo 2のトークナイザはトークン効率が約2で、上記の読書スピードに近い値な気がする4。ちなみにこのメモは 652トークンで、タイトル下に表示している。

大規模言語モデル PLaMo 2 のためのトークナイザ性能改善
大規模言語モデル PLaMo 2 のためのトークナイザ性能改善
PLaMo 2 のトークナイザは、前のバージョンである PLaMo 100 B と比較して、日本語のトークン効率が 45 %、英語のトークン効率が 25 % 向上しました。今回の記事では、PLaMo 2 に採用したトークナイザの改善について紹介します。
🔗tech.preferred.jp

先日のメモ「ブログ投稿のアクティビティカレンダー」で、カラースケールは文字数じゃなくてトークンベースにしたい、みたいなことを書いたので、ついでにBlog Activityもトークン数に切り替えた。

なお、トークン数計算に、テンプレート構文などの無駄な記号を一切考慮していないため、トークン量の感覚が掴めるかは謎。