Varianz und Standardabweichung in der Statistik

Die Varianz ist ein Streuungsmaß, welches die Verteilung von Werten um den Mittelwert kennzeichnet. Berechnen kannst du diese, indem du die Summe der quadrierten Abweichungen aller Messwerte vom arithmetischen Mittel durch die Anzahl der Messwerte dividierst. Außerdem ist diese ein Maß für die Streuung der Wahrscheinlichkeitsdichte um ihren Schwerpunkt. Mathematisch kann man sie als die mittlere quadratische Abweichung einer reellen Zufallsvariablen von ihrem Erwartungswert definieren. 

Die Varianz kann man physikalisch als Trägheitsmoment interpretieren. Des Weiteren ist sie das Quadrat der Standardabweichung, des wichtigsten Streuungsmaßes in der Stochastik. Die Varianz kann mit einem Varianzschätzer, z. B. der Stichprobenvarianz, geschätzt werden.

Eigenschaften der Varianz

Zu den Eigenschaften der Varianz gehören, dass sie niemals negativ ist und sich bei Verschiebung der Verteilung nicht ändert. Die Varianz einer Summe unkorrelierter Zufallsvariablen ist gleich der Summe ihrer Varianzen. Ein Nachteil der Varianzen für praktische Anwendungen ist, dass sie im Unterschied zur Standardabweichung eine andere Einheit als die Zufallsvariable besitzen. Da sie über ein →Integral definiert wird, existiert sie nicht für alle Verteilungen, d. h., sie kann auch unendlich sein.

Eine Verallgemeinerung ist die Kovarianz. Im Unterschied zur Varianz, die die Variabilität der betrachteten Zufallsvariable misst, ist die Kovarianz ein Maß für die gemeinsame Variabilität von zwei Zufallsvariablen. Aus dieser Definition folgt, dass die Kovarianz einer Zufallsvariable mit sich selbst gleich der Varianz dieser →Zufallsvariablen ist.

Was sagt die empirische Standardabweichung aus?

Die Standardabweichung ist ein Maß für die Streubreite der Werte eines Merkmals rund um dessen Mittelwert (arithmetisches Mittel). Vereinfacht gesagt, ist die Standardabweichung die durchschnittliche Entfernung aller gemessenen Ausprägungen eines Merkmals vom Durchschnitt.

Sie gehört zu den Streuungsmaßen und beschreibt die mittlere quadratische Abweichung der einzelnen Messwerte vom empirischen Mittelwert. Sie stellt damit eine Art durchschnittliches Abweichungsquadrat dar. Die positive Wurzel der empirischen Varianz ist die empirische Standardabweichung. Verwende die Standardabweichung, um die Streubreite der Daten um den Mittelwert zu ermitteln. Ein höherer Wert der Standardabweichung verweist auf eine größere Streubreite der Daten.

 

Was ist die Statistik?

Statistik wird einerseits als eigenständige mathematische Disziplin über das Sammeln, die Analyse, die Interpretation oder Präsentation von Daten betrachtet. Andererseits als Teilgebiet der Mathematik, insbesondere der Stochastik, angesehen. Dabei kannst du die Statistik auch als Lehre von Methoden zum Umgang mit quantitativen Informationen (Daten) verstehen. Unter anderem macht sie es möglich eine systematische Verbindung zwischen Erfahrung (Empirie) und Theorie herzustellen. Darunter versteht man auch die Zusammenfassung bestimmter Methoden zur Analyse empirischer Daten. Ein alter Ausdruck dafür war Sammelforschung.

Die Statistik wird in die folgenden drei Teilbereiche eingeteilt

  1. Die deskriptive Statistik (auch beschreibende oder empirische). Vorliegende Daten werden in geeigneter Weise beschrieben, aufbereitet und zusammengefasst. Mit ihren Methoden verdichtet man quantitative Daten zu Tabellen, graphischen Darstellungen und Kennzahlen.
  2. Die induktive Statistik (auch mathematische, schließende, beurteilende oder Inferenzstatistik). Bei der induktiven Art leitet man aus den Daten einer Stichprobe Eigenschaften einer Grundgesamtheit ab. Die Wahrscheinlichkeitstheorie liefert die Grundlagen für die erforderlichen Schätz- und Testverfahren.
  3. Die explorative Statistik (auch hypothesen-generierende, analytische oder Data-Mining). Dies ist methodisch eine Zwischenform der beiden vorgenannten Teilbereiche, bekommt als Anwendungsform jedoch zunehmend eine eigenständige Bedeutung. Mittels deskriptiver Verfahren und induktiver Testmethoden sucht sie systematisch mögliche Zusammenhänge (oder Unterschiede) zwischen Daten in vorhandenen Datenbeständen und will sie zugleich in ihrer Stärke und Ergebnissicherheit bewerten. Die so gefundenen Ergebnisse lassen sich als Hypothesen verstehen, die erst, nachdem darauf aufbauende, induktive Testverfahren mit entsprechenden (prospektiven) Versuchsplanungen sie bestätigen, als statistisch gesichert gelten können.

Der Unterschied zwischen deskriptiver und explorativer Methode wird auch an den Fragestellungen deutlich. Bei der deskriptive Statistik kannst du dich fragen, wie man eine Verteilung eines Merkmals beschreiben kann. Bei der explorative Statistik fragst du dich, was an einer Verteilung eines Merkmals bemerkenswert oder ungewöhnlich ist.

Vor allem benötigen wir die Statistik, um informierte, das heißt, richtige oder bessere Entscheidungen für Probleme treffen zu können. Diese beziehen sich nicht auf Einzelfälle, sondern auf Gesamtheiten oder Massenerscheinungen. Oder von denen ganze Bevölkerungen beziehungsweise Populationen betroffen sind.

Die wichtigsten Diagrammtypen:

  • Säulendiagramm. Das Säulendiagramm ist die am häufigsten verwendete und einfachste Diagrammart
  • Balkendiagramm
  • Additives Diagramm
  • Kurvendiagramm
  • Flächendiagramm
  • Kreisdiagramm
  • Verbunddiagramm
  • Netzdiagramm.

Was ist ein Box Plot?

Der Box-Plot (auch Box-Whisker-Plot, Kastenschaubild oder Kastengrafik) ist ein Diagramm, das zur grafischen Darstellung der Verteilung eines mindestens ordinalskalierten Merkmals verwendet wird. Es fasst dabei verschiedene robuste Streuungs- und Lagemaße in einer Darstellung zusammen. Ein Box-Plot soll schnell einen Eindruck darüber vermitteln, in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen. Deshalb werden alle Werte der sogenannten Fünf-Punkte-Zusammenfassung, also der Median, die zwei Quartile und die beiden Extremwerte, dargestellt.

Ein Box-Plot besteht immer aus einem Rechteck, genannt Box, und zwei Linien, die dieses Rechteck verlängern. Diese Linien werden als „Antenne“ oder seltener als „Fühler“ oder „Whisker“ bezeichnet und werden durch einen Strich abgeschlossen. In der Regel repräsentiert der Strich in der Box den Median der Verteilung.

Was ist ein Box Plot?

Die Box entspricht dem Bereich, in dem die mittleren 50 % der Daten liegen. Sie wird also durch das obere und das untere Quartil begrenzt, und die Länge der Box entspricht dem Interquartilsabstand. Dieser ist ein Maß der Streuung der Daten und wird durch die Differenz des oberen und unteren Quartils bestimmt. Des Weiteren wird der Median als durchgehender Strich in der Box eingezeichnet. Dieser Strich teilt das gesamte Diagramm in zwei Bereiche, in denen jeweils 50 % der Daten liegen. Durch seine Lage innerhalb der Box bekommt man also einen Eindruck von der Schiefe der den Daten zugrunde liegenden Verteilung vermittelt. Ist der Median im linken Teil der Box, so ist die Verteilung rechtsschief, und umgekehrt.

Aufgrund des einfachen Aufbaus von Box-Plots verwendet man diese hauptsächlich, wenn man sich schnell einen Überblick über bestehende Daten verschaffen will. Dabei muss nicht bekannt sein, welcher Verteilung diese Daten unterliegen. Die Box gibt an, in welchem Bereich 50 % der Daten liegen. An der Lage des Medians innerhalb dieser Box kann man erkennen, ob eine Verteilung symmetrisch oder schief ist. 

Box-Plots eignen sich auch, um eventuelle Ausreißer zu identifizieren, oder liefern Hinweise darauf, ob die Daten einer bestimmten Verteilung unterliegen. 

Wenn der Box-Plot stark asymmetrisch ist, eine ungewöhnlich hohe Ausreißerzahl oder weit von der Box entfernte Ausreißer enthält, deutet das beispielsweise darauf hin, dass die Daten nicht normalverteilt sind.

Der wesentliche Vorteil des Box-Plot besteht im raschen Vergleich der Verteilung in verschiedenen Untergruppen. Während ein Histogramm eine zweidimensionale Ausdehnung hat, ist ein Box-Plot im Wesentlichen eindimensional. So lassen sich leicht mehrere Datensätze nebeneinander (oder untereinander bei waagerechter Darstellung) auf derselben Skala darstellen und vergleichen.

Lineare Optimierung – Ungleichungssysteme

Um eine Lineare Optimierung bzw. ein lineares Optimierungsproblem lösen zu können, solltest du mit Ungleichungen und deren Systemen vertraut sein. Eine Ungleichung ist eine Behauptung, die von einer (oder mehreren) Variablen abhängt. Allerdings behauptet sie nicht, dass zwei Terme gleich sind, sondern dass ein Term größer oder kleiner (oder größer-gleich oder kleiner-gleich) als ein anderer Term ist. Variablenwerte, die eine Ungleichung erfüllen, stellen Lösungen dar. Die Menge aller Lösungen heißt Lösungsmenge. Einfache Ungleichungen kannst du ohne großartigen Formalismus durch ein bisschen Nachdenken (nach Art einer Denksportaufgabe) lösen. Es gibt Verfahren (Äquivalenzumformungen), die gewissen Regeln genügen, systematisch angewandt helfen sie dir beim Auffinden der Lösungsmenge. Um sicher zu gehen, kannst du für einzelne „Lösungskandidaten“ immer die Probe durch Einsetzen machen. Führt sie auf eine wahre Aussage, so handelt es sich tatsächlich um eine Lösung

Allerdings gibt es auch wichtige Unterschiede zwischen Gleichungen und Ungleichungen, die du beachten solltest:

Eine Ungleichung besitzt in der Regel nicht nur eine, sondern viele (unendlich viele, siehe grafischen Lösungsansatz) Lösungen. Um die Menge all dieser Lösungen angeben zu können, sind etwas mehr mathematische Kenntnisse nötig als beim Hinschreiben einer einzigen Zahl. Die Regeln zum Umformen von Ungleichungen (Äquivalenzumformungen) sind etwas komplizierter als die Regeln zum Umformen von Gleichungen. Manchmal führen sie auf Fallunterscheidungen. Um die Lösungsmenge einer Ungleichung zu finden, sind dann mehrere vereinfachte Ungleichungen zu lösen und deren Lösungsmengen zu kombinieren.

Was ist eine Lineare Optimierung?

Ungleichungsprobleme werden manchmal von vornherein in Form mehrerer Ungleichungen gestellt. Diese sollen alle gleichzeitig erfüllt sein (oder – was auch vorkommt – von denen zumindest eine erfüllt sein soll). In solchen Fällen handelt es sich genau genommen um Ungleichungssysteme, aber diese lassen sich von den Ungleichungen weniger scharf trennen als Gleichungssysteme von Gleichungen. Auch wenn eine einzige Ungleichung gegeben ist, kannst du durch eine Fallunterscheidung erkennen, dass du mehrere Ungleichungen betrachten musst. All das macht die Sache etwas komplizierter als das Gleichungslösen.

Die lineare Optimierung oder lineare Programmierung beschäftigt sich mit der Optimierung linearer Zielfunktionen über einer Menge, die durch lineare Gleichungen und Ungleichungen eingeschränkt ist. Häufig lassen sich lineare Programme (LPs) zur Lösung von Problemen einsetzen, für die keine speziell entwickelten Lösungsverfahren bekannt sind, beispielsweise bei der Planung von Verkehrs- oder Telekommunikationsnetzen oder in der Produktionsplanung. 

Das ökonomische Prinzip tritt dabei in den Formen des Maximaprinzips und des Minimalprinzips auf. Beim Maximalprinzip möchte man aus einem Bestand an Mitteln (Material, Arbeitsstunden, Kapital etc.) ein möglichst großer Nutzen und/oder Gewinn erzielen. Beim Minimalprinzip soll ein Ziel mit möglichst kleinen Aufwand oder Kosten erreicht werden.

Eine Lineare Zielfunktion, deren Funktionswert maximal oder minimal werden soll und Nebenbedingungen, die die Möglichkeiten einschränken und den Lösungsbereich begrenzen, stehen dabei als mathematische Werkzeuge zur Verfügung.

Der binomische Lehrsatz

Der binomische Lehrsatz führt zu den binomischen Formeln. Diese sind in der elementaren Algebra verbreitete Formeln zum Umformen von Produkten aus Binomen. Sie werden als Merkformeln verwendet, die zum einen das Ausmultiplizieren von Klammerausdrücken erleichtern. Zum anderen erlauben sie die Faktorisierung von Termen. Also die Umformung von bestimmten Summen und Differenzen in Produkte. Dies stellt bei der Vereinfachung von Bruchtermen, beim Radizieren von Wurzeltermen sowie Logarithmenausdrücken sehr oft die einzige Lösungsstrategie dar. Im Grunde sind sie Spezialfälle des Distributivgesetzes für algebraische Summen. Jedes Glied der einen wird mit jedem der anderen Summe multipliziert.

Eine der bekanntesten Formeln in der Mathematik ist (a+b)2 =a2 +2ab+b2.

Der →binomische Lehrsatz für den Fall n = 2 heißt erste binomische Formel. Im Grunde ist dies nur ein Spezialfall eines allgemeinen Satzes, des binomischen Lehrsatzes.

Wenn du höhere Potenzen ausrechnen willst, z.B. (a+b)4 wird der Rechenaufwand beim Ausmultiplizieren sehr groß.

Der binomische Lehrsatz ist ein Satz der Mathematik, der es in seiner einfachsten Form ermöglicht, die Potenzen eines Binoms als Polynom n-ten Grades in den Variablen a und b auszudrücken. In der Algebra gibt der binomische Lehrsatz an, wie ein Ausdruck auszumultiplizieren ist. Der binomische Lehrsatz für den Fall n = 2 heißt erste binomische Formel. Die Koeffizienten dieser Polynomausdrücke sind die →Binomialkoeffizienten

Was ist der Binomialkoeffizient?

Der Binomialkoeffizient ist eine mathematische Funktion, mit der sich eine der Grundaufgaben der Kombinatorik lösen lässt. Er gibt an, auf wie viele verschiedene Arten man k-bestimmte Objekte aus einer Menge von n-verschiedenen Objekten auswählen kann. Ohne Zurücklegen, ohne Beachtung der Reihenfolge. Der Binominalkoeffizient ist also die Anzahl der k-elementigen Teilmengen einer n-elementigen Menge.

Mit ihrer Hilfe lassen sich leicht alle Binomialkoeffizienten bis zu einer vorgegebenen Schranke für n bestimmen, ein Schema dafür ist das Pascalsche Dreieck: Der rekursive Teil entspricht dort der Tatsache, dass jede Zahl die Summe der beiden über ihr stehenden Zahlen ist.

 

Arithmetische Folge und geometrische Reihe

Eine arithmetische Folge (auch arithmetische Progression) ist eine regelmäßige mathematische Zahlenfolge mit der Eigenschaft, dass die Differenz zweier benachbarter Folgenglieder konstant ist. Eine einfache arithmetische Folge stellen die ungeraden natürlichen Zahlen dar: 1,3,5,7,9,…

Als Folge oder Sequenz wird in der Mathematik eine Auflistung (Familie) von endlich oder unendlich vielen fortlaufend nummerierten Objekten (beispielsweise Zahlen) bezeichnet. Dasselbe Objekt kann in einer Folge auch mehrfach auftreten.

Die zwei wichtigsten Folgen sind die arithmetische und die geometrische Folge. Sie treten in der Natur (radioaktiver Zerfall, bakterielles Wachstum), den Finanzwissenschaften (Zinsen und Zinseszinsen) und vielen weiteren Bereichen auf. Man sieht zudem, dass ein Wechsel zwischen expliziter und rekursiver Darstellung sehr einfach ist.

Was ist eine arithmetische Folge und eine geometrische Folge?

Du kannst erkennen, dass die Ähnlichkeit der zwei Definitionen nicht zufällig ist, die arithmetische Folge wächst additiv, die geometrische multiplikativ. Die geometrische Folge tritt in vielen Wachstums- und Zerfallsprozessen in der Natur auf, in der Zinsrechnung haben sowohl arithmetische als auch geometrische Folge ihren Platz.

Eine geometrische Folge ist eine regelmäßige mathematische Zahlenfolge mit der Eigenschaft, dass der Quotient zweier benachbarter Folgenglieder konstant ist.

Die Bezeichnung „geometrische Folge“ leitet sich aus dem geometrischen Mittel ab. Jedes Glied einer geometrischen Folge ist nämlich das geometrische Mittel seiner Nachbarglieder. Die Summierung der Folgenglieder ergibt die geometrische Reihe.

Eine geometrische Reihe ist die Reihe einer geometrischen Folge, deren n-tes Glied die Summe der ersten n Glieder der zugehörigen geometrischen Folge ist. 

Wir unterscheiden zwischen endlichen und unendlichen Reihen, je nachdem, ob n endlich ist oder nicht. Eine unendliche geometrische Reihe entsteht, wenn bei der geometrischen Reihe n gegen unendlich geht. 

Arithmetische Reihen sind spezielle mathematische Reihen. Eine arithmetische Reihe ist die Folge, deren Glieder die Summe der ersten n Glieder (den Partialsummen) einer arithmetischen Folge sind. Arithmetische Reihen sind im Allgemeinen divergent. Es interessieren deshalb vor allem die Partialsummen, die auch als endliche arithmetische Reihen bezeichnet werden.

Es gibt eine einfache Formel zur Berechnung der Partialsummen beziehungsweise der endlichen arithmetischen Reihe. Die Summe einer endlichen arithmetischen Folge ist die Anzahl der Glieder multipliziert mit dem arithmetischen Mittel des ersten und des letzten Gliedes.

Werde Teil von Lernflix

Bleib´ am Laufenden und versäume keinen neuen Beitrag von lernflix

Newsletter-anmeldunG