Contagem de Palavras em Japonês (Análise Morfológica)
Realiza análise morfológica de textos em japonês para contar automaticamente palavras, tokens e a frequência das palavras. Como não depende da separação por espaços, consegue contar palavras com precisão mesmo em japonês, um idioma sem espaços.
Top 20 de frequência de palavras
| Posição | Palavra | Vezes |
|---|---|---|
| Digite um texto para ver a frequência das palavras. | ||
Tips
- Diferente do inglês ou do alemão, onde espaços separam as palavras, o japonês exige a detecção automática dos limites entre palavras. Esta ferramenta estima esses limites usando um método estatístico leve chamado TinySegmenter.
- A tabela de Top 20 de frequência de palavras é útil para verificar se um post de blog ou conteúdo de SEO está usando uma palavra-chave de forma repetitiva e não natural.
- Pontuação e parênteses também são contados como um token, por isso esta ferramenta exibe separadamente o "total de tokens" e o "número de palavras (sem símbolos)".
- Nomes próprios, neologismos e palavras que não estão em dicionário podem, às vezes, ser segmentados de forma pouco natural dependendo do contexto. Para usos que exijam uma análise morfológica estrita baseada em dicionário, considere uma ferramenta especializada como o MeCab.
Perguntas frequentes
Curiosidade — "Sumomo mo Momo mo Momo no Uchi" e a dificuldade da segmentação de palavras
O japonês não tem espaços entre palavras (a segmentação de palavras, ou wakachi-gaki, não existe nativamente), o que é um dos maiores desafios do processamento de linguagem natural em japonês. Um exemplo famoso é o trava-língua "すもももももももものうち" (sumomo mo momo mo momo no uchi, que significa aproximadamente "a ameixa também é um tipo de pêssego"). Uma pessoa consegue segmentá-lo intuitivamente como "sumomo / mo / momo / mo / momo no / uchi", mas para uma máquina sem dicionário, decidir onde ficam os limites é extremamente difícil.
O TinySegmenter, a biblioteca usada por esta ferramenta, é uma biblioteca leve de segmentação japonesa criada por Taku Kudo, pesquisador também conhecido por seu trabalho no Google e pelo MeCab. Ela não usa nenhum dicionário; em vez disso, segmenta o texto com um modelo treinado estatisticamente que infere os limites das palavras a partir de padrões de transição entre tipos de caracteres (hiragana, katakana, kanji, números etc.). Apesar de ocupar apenas algumas dezenas de kilobytes, funciona rapidamente direto no navegador.
Mecanismos completos de análise morfológica, como o MeCab ou o Kuromoji, exigem dados de dicionário de vários a dezenas de megabytes. Como o TinySegmenter não precisa de nenhum dicionário, esta ferramenta consegue concluir toda a análise no navegador sem enviar nenhum dado a um servidor. Em troca dessa independência de dicionário, ele perde um pouco de precisão, mas ainda é prático o suficiente para uma contagem geral de palavras em textos do dia a dia.