Wortschatz

Ab einer gewissen Menge an Text kann man Rückschlüsse auf den Wortschatz des Autors ziehen. Zum Beispiel besteht dieser Blog (dieser Artikel nicht mitgezählt) aus 9318 deutschsprachigen Wörtern.

Nicht nur für UML, sondern auch für natürliche Sprache kann ein Metamodell gebildet werden. Ein Wort hat neben seiner Ausprägung im Text noch Predikate (z.B. „ist ein Name“), und einen Wortstamm. Zum Beispiel ist die Stammform des Worts „neuen“ „neu“. Der Wortstamm „neu“ kann wiederum die folgenden Ausprägungen in einem Satz besitzen: „neues“, „neuen“, „neuem“, „neue“, „neuer“ und „neu“. Die Aufzählung ist wahrscheinlich nicht vollständig.

Um von einem Text auf den Wortschatz zu schließen eignet sich folgendes Vorgehen:

  • Der Text wird in Wörter zerlegt
  • Namen werden entfernt
  • Für jedes Wort wird der Wortstamm ermittelt

Bei diesem Blog basieren die 9318 Wörter auf 1883 Wortstämmen. Als Vergleichswert: Goethes „Faust“ (erster Teil) besteht aus 30561 Wörtern, diese lassen sich auf 4542 Wortstämme zurückführen.
Die gravierendsten Unterschiede zwischen Faust und diesem Blog, also Wörter, die in einer Quelle häufig vorkommen und in der Vergleichsquelle gar nicht:
In Goethes Faust kommen die Wörter „UML“, „Klasse“, „metamodell“, „beispiel“, „diagramm“, „modell“, „instanz“ und „information“ nicht vor, während sie in diesem Blog sehr häufig vorkommen. Andersherum benutzt Goethe oft die Wörter „du“, „faust“, „euch“, „dir“, „lieb“ und „geist“, während dieser Blog diese Wortstämme nicht verwendet.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.