日语单词计数（形态学分析）

对日语文本进行形态学分析，自动统计单词数、词符（token）数和单词出现频率。由于不依赖半角空格分隔，即使是没有空格的日语文本也能准确统计单词数。

单词数（不含符号）

总词符数（含符号）

单词出现频率 TOP20

排名	单词	次数

输入文本后，将显示单词出现频率。

Tips

与英语、德语等以空格分隔单词的语言不同，日语需要自动判断单词边界。本工具使用轻量级的统计方法（TinySegmenter）来推测这些边界。
单词出现频率 TOP20 便于检查博客文章或 SEO 内容中是否存在关键词使用过于频繁、不自然的情况。
标点符号和括号等也会被计为1个词符（token），因此本工具将"总词符数"与"单词数（不含符号）"分开显示为两个指标。
专有名词、新词以及词典中没有的单词，有时会因上下文而被不自然地分割。如果需要严格的（基于词典的）形态学分析，请考虑使用 MeCab 等专业工具。

常见问题

英语文本基本以半角空格分隔单词，但日语文本没有这样的分隔符。如果简单地按空格分割，无法正确统计日语单词数，因此需要通过分析字符序列来推测单词边界的形态学分析（分词）技术。

本工具使用的 TinySegmenter 是一种不依赖词典的轻量级统计方法，因此精度略逊于 MeCab 等基于词典的形态学分析引擎。对于日常文本已足够实用，但在包含大量专业术语或新词的文本中，分词结果可能会出现偏差。

不会。形态学分析全部在浏览器内通过 JavaScript 执行，输入的文本不会被发送到任何服务器。

可用于检查博客文章或 SEO 文章中是否存在特定关键词被不自然地反复使用，检查措辞是否存在偏向，以及分析文本的整体倾向等。

现有的字符计数器按半角空格分隔来统计单词数，因此不支持日语。本工具专门针对日语进行形态学分析，除了单词数之外还会显示单词出现频率。

闲话 ― 从"すもももももももものうち"看日语分词的难点

日语中没有像英语那样区分单词的空格（即"分词书写"），这是自然语言处理的一大难点。一个著名的例子是绕口令"すもももももももものうち"（读作 sumomo mo momo mo momo no uchi，大意为"李子也是桃子的一种"）。人类可以直观地将其切分为"李子／也／桃子／也／桃子的／其中"，但对于没有词典的机器来说，判断词语边界是非常困难的。

本工具使用的 TinySegmenter，是由同时以 Google 研究者身份知名的工藤拓（Taku Kudo）开发的轻量级日语分词库。它不依赖任何词典，而是通过统计学习字符种类（平假名、片假名、汉字、数字等）的转换模式来判断词语边界的可能性，因此尽管体积仅有数十 KB，却能在浏览器中高速运行。

正规的形态学分析引擎（如 MeCab、Kuromoji 等）通常需要数 MB 至数十 MB 的词典数据，而 TinySegmenter 完全不需要词典即可完成分词，因此本工具可以像现在这样，完全不向服务器发送任何数据，仅在浏览器内完成全部处理。虽然精度略逊于基于词典的方法，但对于日常文本的单词数统计而言已经足够实用。

日语单词计数（形态学分析）

单词出现频率 TOP20

Tips

常见问题

为什么统计日语单词数需要特殊处理？

这个单词数统计是100%准确的吗？

输入的文本会被发送到服务器吗？

单词出现频率在什么场景下有用？

与现有的字符计数器有什么区别？

闲话 ― 从"すもももももももものうち"看日语分词的难点