日语单词计数(形态学分析)

对日语文本进行形态学分析,自动统计单词数、词符(token)数和单词出现频率。由于不依赖半角空格分隔,即使是没有空格的日语文本也能准确统计单词数。


单词数(不含符号)
总词符数(含符号)

单词出现频率 TOP20

排名 单词 次数
输入文本后,将显示单词出现频率。

Tips

  • 与英语、德语等以空格分隔单词的语言不同,日语需要自动判断单词边界。本工具使用轻量级的统计方法(TinySegmenter)来推测这些边界。
  • 单词出现频率 TOP20 便于检查博客文章或 SEO 内容中是否存在关键词使用过于频繁、不自然的情况。
  • 标点符号和括号等也会被计为1个词符(token),因此本工具将"总词符数"与"单词数(不含符号)"分开显示为两个指标。
  • 专有名词、新词以及词典中没有的单词,有时会因上下文而被不自然地分割。如果需要严格的(基于词典的)形态学分析,请考虑使用 MeCab 等专业工具。

常见问题

英语文本基本以半角空格分隔单词,但日语文本没有这样的分隔符。如果简单地按空格分割,无法正确统计日语单词数,因此需要通过分析字符序列来推测单词边界的形态学分析(分词)技术。

本工具使用的 TinySegmenter 是一种不依赖词典的轻量级统计方法,因此精度略逊于 MeCab 等基于词典的形态学分析引擎。对于日常文本已足够实用,但在包含大量专业术语或新词的文本中,分词结果可能会出现偏差。

不会。形态学分析全部在浏览器内通过 JavaScript 执行,输入的文本不会被发送到任何服务器。

可用于检查博客文章或 SEO 文章中是否存在特定关键词被不自然地反复使用,检查措辞是否存在偏向,以及分析文本的整体倾向等。

现有的字符计数器按半角空格分隔来统计单词数,因此不支持日语。本工具专门针对日语进行形态学分析,除了单词数之外还会显示单词出现频率。
ツールくん

闲话 ― 从"すもももももももものうち"看日语分词的难点

日语中没有像英语那样区分单词的空格(即"分词书写"),这是自然语言处理的一大难点。一个著名的例子是绕口令"すもももももももものうち"(读作 sumomo mo momo mo momo no uchi,大意为"李子也是桃子的一种")。人类可以直观地将其切分为"李子/也/桃子/也/桃子的/其中",但对于没有词典的机器来说,判断词语边界是非常困难的。

本工具使用的 TinySegmenter,是由同时以 Google 研究者身份知名的工藤拓(Taku Kudo)开发的轻量级日语分词库。它不依赖任何词典,而是通过统计学习字符种类(平假名、片假名、汉字、数字等)的转换模式来判断词语边界的可能性,因此尽管体积仅有数十 KB,却能在浏览器中高速运行。

正规的形态学分析引擎(如 MeCab、Kuromoji 等)通常需要数 MB 至数十 MB 的词典数据,而 TinySegmenter 完全不需要词典即可完成分词,因此本工具可以像现在这样,完全不向服务器发送任何数据,仅在浏览器内完成全部处理。虽然精度略逊于基于词典的方法,但对于日常文本的单词数统计而言已经足够实用。