Comptage de Mots Japonais (Analyse Morphologique)
Effectue une analyse morphologique de textes japonais pour compter automatiquement les mots, les tokens et la fréquence des mots. Comme cet outil ne repose pas sur la séparation par espaces, il peut compter les mots avec précision même dans des phrases japonaises, qui n'ont pas d'espaces.
Top 20 des fréquences de mots
| Rang | Mot | Occurrences |
|---|---|---|
| Saisissez un texte pour afficher la fréquence des mots. | ||
Tips
- Contrairement à l'anglais ou à l'allemand, où les espaces séparent les mots, le japonais nécessite une détection automatique des limites entre les mots. Cet outil estime ces limites à l'aide d'une méthode statistique légère appelée TinySegmenter.
- Le tableau Top 20 des fréquences de mots est utile pour vérifier si un article de blog ou un contenu SEO utilise un mot-clé de manière anormalement répétitive.
- La ponctuation et les parenthèses sont également comptées comme un token chacune, c'est pourquoi cet outil affiche séparément le "nombre total de tokens" et le "nombre de mots (hors ponctuation)".
- Les noms propres, les néologismes et les mots absents du dictionnaire peuvent parfois être segmentés de façon peu naturelle selon le contexte. Pour les usages nécessitant une analyse morphologique stricte basée sur un dictionnaire, envisagez un outil spécialisé comme MeCab.
Foire aux questions
Anecdote — « Sumomo mo Momo mo Momo no Uchi » et la difficulté de la segmentation des mots
Le japonais ne comporte pas d'espaces entre les mots (la segmentation des mots, ou wakachi-gaki, n'existe pas nativement), ce qui constitue l'un des plus grands défis du traitement automatique du langage naturel en japonais. Un exemple célèbre est le virelangue « すもももももももものうち » (sumomo mo momo mo momo no uchi, qui signifie à peu près « la prune aussi est une sorte de pêche »). Un humain peut intuitivement le découper en « sumomo / mo / momo / mo / momo no / uchi », mais pour une machine sans dictionnaire, déterminer où se situent les limites est extrêmement difficile.
TinySegmenter, la bibliothèque utilisée par cet outil, est une bibliothèque légère de segmentation japonaise créée par Taku Kudo, un chercheur également connu pour son travail chez Google et pour MeCab. Elle n'utilise aucun dictionnaire : elle segmente le texte à l'aide d'un modèle entraîné statistiquement qui déduit les limites des mots à partir des schémas de transition entre types de caractères (hiragana, katakana, kanji, chiffres, etc.). Bien qu'elle ne pèse que quelques dizaines de kilo-octets, elle fonctionne rapidement directement dans le navigateur.
Les moteurs d'analyse morphologique complets, comme MeCab ou Kuromoji, nécessitent des données de dictionnaire allant de plusieurs à plusieurs dizaines de méga-octets. Comme TinySegmenter ne nécessite aucun dictionnaire, cet outil peut effectuer toute l'analyse dans le navigateur sans envoyer aucune donnée à un serveur. En contrepartie de cette absence de dictionnaire, il perd un peu de précision, mais reste suffisamment pratique pour obtenir un comptage général des mots dans un texte courant.