Conteo de Palabras en Japonés (Análisis Morfológico)
Realiza un análisis morfológico de textos en japonés para contar automáticamente palabras, tokens y la frecuencia de palabras. Como no depende de la separación por espacios, puede contar palabras con precisión incluso en japonés, un idioma sin espacios.
Top 20 de frecuencia de palabras
| Posición | Palabra | Veces |
|---|---|---|
| Introduce un texto para ver la frecuencia de palabras. | ||
Tips
- A diferencia del inglés o el alemán, donde los espacios separan las palabras, el japonés requiere detectar automáticamente los límites entre palabras. Esta herramienta estima esos límites mediante un método estadístico ligero llamado TinySegmenter.
- La tabla del Top 20 de frecuencia de palabras es útil para comprobar si una entrada de blog o un contenido SEO abusa de forma poco natural de una palabra clave concreta.
- Los signos de puntuación y los paréntesis también se cuentan como un token, por lo que esta herramienta muestra por separado el "total de tokens" y el "número de palabras (sin símbolos)".
- Los nombres propios, los neologismos y las palabras que no están en el diccionario a veces se segmentan de forma poco natural según el contexto. Para usos que requieran un análisis morfológico estricto basado en diccionario, considera una herramienta especializada como MeCab.
Preguntas frecuentes
A propósito — "Sumomo mo Momo mo Momo no Uchi" y la dificultad de la segmentación de palabras
El japonés no tiene espacios entre palabras (no existe de forma nativa la segmentación de palabras o wakachi-gaki), lo que es uno de los mayores retos del procesamiento del lenguaje natural en japonés. Un ejemplo famoso es el trabalenguas "すもももももももものうち" (sumomo mo momo mo momo no uchi, que viene a significar "la ciruela también es un tipo de melocotón"). Una persona puede segmentarlo intuitivamente como "sumomo / mo / momo / mo / momo no / uchi", pero para una máquina sin diccionario, decidir dónde están los límites resulta extremadamente difícil.
TinySegmenter, la biblioteca que usa esta herramienta, es una biblioteca ligera de segmentación japonesa creada por Taku Kudo, un investigador también conocido por su trabajo en Google y por MeCab. No utiliza ningún diccionario; en su lugar, segmenta el texto con un modelo entrenado estadísticamente que infiere los límites de las palabras a partir de los patrones de transición entre tipos de caracteres (hiragana, katakana, kanji, números, etc.). A pesar de ocupar solo unas decenas de kilobytes, funciona con rapidez directamente en el navegador.
Los motores de análisis morfológico completos, como MeCab o Kuromoji, necesitan datos de diccionario de varios a decenas de megabytes. Como TinySegmenter no necesita ningún diccionario, esta herramienta puede completar todo el análisis en el navegador sin enviar ningún dato a un servidor. A cambio de esa independencia del diccionario, sacrifica algo de precisión, pero sigue siendo lo bastante práctica para obtener un recuento de palabras general en textos cotidianos.