日本語 単語数カウント(形態素解析)
日本語の文章を形態素解析し、単語数・トークン数・単語の出現頻度を自動カウントします。半角スペース区切りに依存しないため、日本語の文章でも正確に単語数を数えられます。
単語数(記号を除く)
総トークン数(記号含む)
単語出現頻度 TOP20
| 順位 | 単語 | 回数 |
|---|---|---|
| テキストを入力すると、単語の出現頻度が表示されます。 | ||
Tips
- 英語やドイツ語のようにスペースで単語が区切られる言語と異なり、日本語は単語の境界を自動判定する必要があります。このツールは軽量な統計的手法(TinySegmenter)で境界を推定します。
- 単語出現頻度 TOP20 は、ブログ記事やSEOコンテンツでキーワードが不自然に多用されていないかを確認する用途に便利です。
- 句読点や括弧なども1トークンとして数えるため、「総トークン数」と「単語数(記号を除く)」の2つの指標を分けて表示しています。
- 固有名詞や新語・辞書に載らない単語は、文脈によって分割が不自然になることがあります。厳密な形態素解析(辞書ベース)が必要な用途には、MeCab 等の専門ツールの利用も検討してください。
よくある質問
英語は基本的に半角スペースで単語が区切られていますが、日本語の文章にはそのような区切りがありません。単純にスペースで分割すると日本語の単語数は正しく数えられないため、文字の並びから単語の境界を推定する形態素解析(分かち書き)の技術が必要になります。
このツールが使う TinySegmenter は辞書を持たない軽量な統計的手法のため、MeCab 等の辞書ベースの形態素解析エンジンと比べると精度は一歩譲ります。日常的な文章であれば実用上十分な精度ですが、専門用語や新語が多い文章では分割がずれる場合があります。
いいえ。形態素解析はすべてブラウザ内のJavaScriptで実行されるため、入力したテキストは一切サーバーに送信されません。
ブログ記事やSEO記事で特定のキーワードが不自然に繰り返されていないかの確認、文章の言い回しの偏りチェック、テキストの傾向分析などに活用できます。
既存の文字カウンターは単語数を半角スペース区切りで数えるため日本語には対応していません。このツールは日本語の形態素解析に特化し、単語数に加えて単語出現頻度も表示します。
余談ですが ― 「すもももももももものうち」と分かち書きの難しさ
日本語には英語のような単語間のスペース(分かち書き)がなく、これが自然言語処理を難しくする大きな要因の一つです。有名な例が早口言葉「すもももももももものうち」で、人間なら「すもも/も/もも/も/ももの/うち」と直感的に区切れますが、辞書を持たない機械にとっては境界の判断が非常に難しい文です。
このツールが使う TinySegmenter は、Google の研究者としても知られる工藤拓氏が開発した軽量な日本語分割ライブラリです。辞書を持たず、文字の並び(ひらがな・カタカナ・漢字・数字などの文字種の遷移パターン)から統計的に単語の境界らしさを学習したモデルで分割するため、わずか数十KBというサイズながらブラウザ上で高速に動作します。
本格的な形態素解析エンジン(MeCab・Kuromoji 等)は数MB〜数十MBの辞書データを必要としますが、TinySegmenter は辞書不要で完結するため、このツールのようにサーバーに一切データを送信せずブラウザだけで処理を完了できます。精度は辞書ベースの手法に一歩譲るものの、日常的な文章の単語数把握には十分な実用性があります。