Japanische Wortzählung (Morphologische Analyse)
Führt eine morphologische Analyse japanischer Texte durch, um automatisch Wörter, Tokens und die Worthäufigkeit zu zählen. Da sie nicht auf einer Trennung durch Leerzeichen basiert, kann sie Wörter auch in japanischen Sätzen, die keine Leerzeichen enthalten, präzise zählen.
Top 20 Worthäufigkeit
| Rang | Wort | Anzahl |
|---|---|---|
| Geben Sie Text ein, um die Worthäufigkeit anzuzeigen. | ||
Tips
- Anders als im Englischen oder Deutschen, wo Leerzeichen Wörter trennen, müssen im Japanischen die Wortgrenzen automatisch erkannt werden. Dieses Tool schätzt diese Grenzen mit einer leichtgewichtigen statistischen Methode namens TinySegmenter.
- Die Tabelle Top 20 Worthäufigkeit eignet sich gut, um zu prüfen, ob in einem Blogbeitrag oder SEO-Inhalt ein bestimmtes Schlüsselwort unnatürlich oft verwendet wird.
- Satzzeichen und Klammern werden ebenfalls jeweils als ein Token gezählt, daher zeigt dieses Tool die "Gesamtzahl der Tokens" und die "Wortanzahl (ohne Satzzeichen)" getrennt an.
- Eigennamen, Neologismen und Wörter, die in keinem Wörterbuch stehen, werden je nach Kontext manchmal unnatürlich getrennt. Für Anwendungsfälle, die eine strenge, wörterbuchbasierte morphologische Analyse erfordern, sollten Sie ein spezialisiertes Tool wie MeCab in Betracht ziehen.
Häufige Fragen
Übrigens – "Sumomo mo Momo mo Momo no Uchi" und die Schwierigkeit der Wortsegmentierung
Im Japanischen gibt es keine Leerzeichen zwischen Wörtern (eine Wortsegmentierung, auf Japanisch wakachi-gaki, existiert von Natur aus nicht), was eine der größten Herausforderungen der japanischen Sprachverarbeitung darstellt. Ein bekanntes Beispiel ist der Zungenbrecher "すもももももももものうち" (sumomo mo momo mo momo no uchi, etwa "Pflaumen sind auch eine Art Pfirsich"). Ein Mensch kann ihn intuitiv als "sumomo / mo / momo / mo / momo no / uchi" segmentieren, aber für eine Maschine ohne Wörterbuch ist es äußerst schwierig, die Grenzen zu bestimmen.
TinySegmenter, die von diesem Tool verwendete Bibliothek, ist eine leichtgewichtige japanische Segmentierungsbibliothek, die von Taku Kudo entwickelt wurde – einem Forscher, der auch für seine Arbeit bei Google und für MeCab bekannt ist. Sie verwendet überhaupt kein Wörterbuch; stattdessen segmentiert sie Text mit einem statistisch trainierten Modell, das Wortgrenzen aus den Übergangsmustern der Zeichentypen (Hiragana, Katakana, Kanji, Ziffern usw.) ableitet. Trotz einer Größe von nur einigen Dutzend Kilobyte läuft sie schnell direkt im Browser.
Vollwertige morphologische Analyse-Engines wie MeCab oder Kuromoji benötigen Wörterbuchdaten im Bereich von mehreren bis mehreren Dutzend Megabyte. Da TinySegmenter überhaupt kein Wörterbuch benötigt, kann dieses Tool die gesamte Analyse im Browser abschließen, ohne Daten an einen Server zu senden. Dafür opfert es etwas Genauigkeit, ist aber immer noch praktisch genug, um bei alltäglichen Texten eine allgemeine Wortanzahl zu ermitteln.