Contagem de Palavras em Japonês (Análise Morfológica)

Realiza análise morfológica de textos em japonês para contar automaticamente palavras, tokens e a frequência das palavras. Como não depende da separação por espaços, consegue contar palavras com precisão mesmo em japonês, um idioma sem espaços.


Número de palavras (sem símbolos)
Total de tokens (com símbolos)

Top 20 de frequência de palavras

Posição Palavra Vezes
Digite um texto para ver a frequência das palavras.

Tips

  • Diferente do inglês ou do alemão, onde espaços separam as palavras, o japonês exige a detecção automática dos limites entre palavras. Esta ferramenta estima esses limites usando um método estatístico leve chamado TinySegmenter.
  • A tabela de Top 20 de frequência de palavras é útil para verificar se um post de blog ou conteúdo de SEO está usando uma palavra-chave de forma repetitiva e não natural.
  • Pontuação e parênteses também são contados como um token, por isso esta ferramenta exibe separadamente o "total de tokens" e o "número de palavras (sem símbolos)".
  • Nomes próprios, neologismos e palavras que não estão em dicionário podem, às vezes, ser segmentados de forma pouco natural dependendo do contexto. Para usos que exijam uma análise morfológica estrita baseada em dicionário, considere uma ferramenta especializada como o MeCab.

Perguntas frequentes

O texto em inglês geralmente é separado em palavras por espaços, mas as frases em japonês não têm esse tipo de separador. Simplesmente dividir por espaços não daria uma contagem precisa de palavras em japonês, por isso é necessária uma técnica de análise morfológica (segmentação de palavras) que infira os limites a partir da sequência de caracteres.

O TinySegmenter, a biblioteca usada por esta ferramenta, é um método estatístico leve e sem dicionário, então sua precisão é um pouco inferior à de analisadores morfológicos baseados em dicionário, como o MeCab. É precisa o suficiente para textos do dia a dia, mas a segmentação pode ficar imprecisa em textos com muitos termos técnicos ou neologismos.

Não. Toda a análise morfológica é executada em JavaScript dentro do navegador, então o texto digitado nunca é enviado a nenhum servidor.

É útil para verificar se uma palavra-chave específica é repetida de forma pouco natural em um post de blog ou artigo de SEO, identificar frases repetitivas e analisar as tendências gerais de um texto.

Um contador de caracteres comum conta palavras dividindo por espaços, então não funciona para o japonês. Esta ferramenta é feita especificamente para análise morfológica do japonês e, além do número de palavras, exibe a frequência das palavras.
ツールくん

Curiosidade — "Sumomo mo Momo mo Momo no Uchi" e a dificuldade da segmentação de palavras

O japonês não tem espaços entre palavras (a segmentação de palavras, ou wakachi-gaki, não existe nativamente), o que é um dos maiores desafios do processamento de linguagem natural em japonês. Um exemplo famoso é o trava-língua "すもももももももものうち" (sumomo mo momo mo momo no uchi, que significa aproximadamente "a ameixa também é um tipo de pêssego"). Uma pessoa consegue segmentá-lo intuitivamente como "sumomo / mo / momo / mo / momo no / uchi", mas para uma máquina sem dicionário, decidir onde ficam os limites é extremamente difícil.

O TinySegmenter, a biblioteca usada por esta ferramenta, é uma biblioteca leve de segmentação japonesa criada por Taku Kudo, pesquisador também conhecido por seu trabalho no Google e pelo MeCab. Ela não usa nenhum dicionário; em vez disso, segmenta o texto com um modelo treinado estatisticamente que infere os limites das palavras a partir de padrões de transição entre tipos de caracteres (hiragana, katakana, kanji, números etc.). Apesar de ocupar apenas algumas dezenas de kilobytes, funciona rapidamente direto no navegador.

Mecanismos completos de análise morfológica, como o MeCab ou o Kuromoji, exigem dados de dicionário de vários a dezenas de megabytes. Como o TinySegmenter não precisa de nenhum dicionário, esta ferramenta consegue concluir toda a análise no navegador sem enviar nenhum dado a um servidor. Em troca dessa independência de dicionário, ele perde um pouco de precisão, mas ainda é prático o suficiente para uma contagem geral de palavras em textos do dia a dia.