Japanische Wortzählung (Morphologische Analyse)

Führt eine morphologische Analyse japanischer Texte durch, um automatisch Wörter, Tokens und die Worthäufigkeit zu zählen. Da sie nicht auf einer Trennung durch Leerzeichen basiert, kann sie Wörter auch in japanischen Sätzen, die keine Leerzeichen enthalten, präzise zählen.


Wortanzahl (ohne Satzzeichen)
Gesamtzahl der Tokens (mit Satzzeichen)

Top 20 Worthäufigkeit

Rang Wort Anzahl
Geben Sie Text ein, um die Worthäufigkeit anzuzeigen.

Tips

  • Anders als im Englischen oder Deutschen, wo Leerzeichen Wörter trennen, müssen im Japanischen die Wortgrenzen automatisch erkannt werden. Dieses Tool schätzt diese Grenzen mit einer leichtgewichtigen statistischen Methode namens TinySegmenter.
  • Die Tabelle Top 20 Worthäufigkeit eignet sich gut, um zu prüfen, ob in einem Blogbeitrag oder SEO-Inhalt ein bestimmtes Schlüsselwort unnatürlich oft verwendet wird.
  • Satzzeichen und Klammern werden ebenfalls jeweils als ein Token gezählt, daher zeigt dieses Tool die "Gesamtzahl der Tokens" und die "Wortanzahl (ohne Satzzeichen)" getrennt an.
  • Eigennamen, Neologismen und Wörter, die in keinem Wörterbuch stehen, werden je nach Kontext manchmal unnatürlich getrennt. Für Anwendungsfälle, die eine strenge, wörterbuchbasierte morphologische Analyse erfordern, sollten Sie ein spezialisiertes Tool wie MeCab in Betracht ziehen.

Häufige Fragen

Englischer Text wird meist durch Leerzeichen in Wörter getrennt, aber japanische Sätze haben keine solchen Trennzeichen. Eine einfache Trennung nach Leerzeichen würde keine genaue Wortanzahl für Japanisch liefern, daher ist eine morphologische Analyse (Wortsegmentierung) erforderlich, die Wortgrenzen aus der Zeichenfolge ableitet.

TinySegmenter, die von diesem Tool verwendete Bibliothek, ist eine leichtgewichtige statistische Methode ohne Wörterbuch, daher ist ihre Genauigkeit etwas geringer als bei wörterbuchbasierten morphologischen Analysatoren wie MeCab. Für alltägliche Texte ist sie genau genug, aber bei Texten mit vielen Fachbegriffen oder Neologismen kann die Segmentierung abweichen.

Nein. Die gesamte morphologische Analyse läuft in JavaScript im Browser, sodass der eingegebene Text niemals an einen Server gesendet wird.

Sie ist nützlich, um zu prüfen, ob ein bestimmtes Schlüsselwort in einem Blogbeitrag oder SEO-Artikel unnatürlich oft wiederholt wird, um wiederkehrende Formulierungen zu erkennen und um allgemeine Tendenzen eines Textes zu analysieren.

Ein gewöhnlicher Zeichenzähler zählt Wörter durch Trennung nach Leerzeichen und funktioniert daher nicht für Japanisch. Dieses Tool ist speziell für die japanische morphologische Analyse entwickelt und zeigt neben der Wortanzahl auch die Worthäufigkeit an.
ツールくん

Übrigens – "Sumomo mo Momo mo Momo no Uchi" und die Schwierigkeit der Wortsegmentierung

Im Japanischen gibt es keine Leerzeichen zwischen Wörtern (eine Wortsegmentierung, auf Japanisch wakachi-gaki, existiert von Natur aus nicht), was eine der größten Herausforderungen der japanischen Sprachverarbeitung darstellt. Ein bekanntes Beispiel ist der Zungenbrecher "すもももももももものうち" (sumomo mo momo mo momo no uchi, etwa "Pflaumen sind auch eine Art Pfirsich"). Ein Mensch kann ihn intuitiv als "sumomo / mo / momo / mo / momo no / uchi" segmentieren, aber für eine Maschine ohne Wörterbuch ist es äußerst schwierig, die Grenzen zu bestimmen.

TinySegmenter, die von diesem Tool verwendete Bibliothek, ist eine leichtgewichtige japanische Segmentierungsbibliothek, die von Taku Kudo entwickelt wurde – einem Forscher, der auch für seine Arbeit bei Google und für MeCab bekannt ist. Sie verwendet überhaupt kein Wörterbuch; stattdessen segmentiert sie Text mit einem statistisch trainierten Modell, das Wortgrenzen aus den Übergangsmustern der Zeichentypen (Hiragana, Katakana, Kanji, Ziffern usw.) ableitet. Trotz einer Größe von nur einigen Dutzend Kilobyte läuft sie schnell direkt im Browser.

Vollwertige morphologische Analyse-Engines wie MeCab oder Kuromoji benötigen Wörterbuchdaten im Bereich von mehreren bis mehreren Dutzend Megabyte. Da TinySegmenter überhaupt kein Wörterbuch benötigt, kann dieses Tool die gesamte Analyse im Browser abschließen, ohne Daten an einen Server zu senden. Dafür opfert es etwas Genauigkeit, ist aber immer noch praktisch genug, um bei alltäglichen Texten eine allgemeine Wortanzahl zu ermitteln.