Varianz und Standardabweichung in der Statistik

Die Varianz ist ein Streuungsmaß, welches die Verteilung von Werten um den Mittelwert kennzeichnet. Berechnen kannst du diese, indem du die Summe der quadrierten Abweichungen aller Messwerte vom arithmetischen Mittel durch die Anzahl der Messwerte dividierst. Außerdem ist diese ein Maß für die Streuung der Wahrscheinlichkeitsdichte um ihren Schwerpunkt. Mathematisch kann man sie als die mittlere quadratische Abweichung einer reellen Zufallsvariablen von ihrem Erwartungswert definieren. 

Die Varianz kann man physikalisch als Trägheitsmoment interpretieren. Des Weiteren ist sie das Quadrat der Standardabweichung, des wichtigsten Streuungsmaßes in der Stochastik. Die Varianz kann mit einem Varianzschätzer, z. B. der Stichprobenvarianz, geschätzt werden.

Eigenschaften der Varianz

Zu den Eigenschaften der Varianz gehören, dass sie niemals negativ ist und sich bei Verschiebung der Verteilung nicht ändert. Die Varianz einer Summe unkorrelierter Zufallsvariablen ist gleich der Summe ihrer Varianzen. Ein Nachteil der Varianzen für praktische Anwendungen ist, dass sie im Unterschied zur Standardabweichung eine andere Einheit als die Zufallsvariable besitzen. Da sie über ein →Integral definiert wird, existiert sie nicht für alle Verteilungen, d. h., sie kann auch unendlich sein.

Eine Verallgemeinerung ist die Kovarianz. Im Unterschied zur Varianz, die die Variabilität der betrachteten Zufallsvariable misst, ist die Kovarianz ein Maß für die gemeinsame Variabilität von zwei Zufallsvariablen. Aus dieser Definition folgt, dass die Kovarianz einer Zufallsvariable mit sich selbst gleich der Varianz dieser →Zufallsvariablen ist.

Was sagt die empirische Standardabweichung aus?

Die Standardabweichung ist ein Maß für die Streubreite der Werte eines Merkmals rund um dessen Mittelwert (arithmetisches Mittel). Vereinfacht gesagt, ist die Standardabweichung die durchschnittliche Entfernung aller gemessenen Ausprägungen eines Merkmals vom Durchschnitt.

Sie gehört zu den Streuungsmaßen und beschreibt die mittlere quadratische Abweichung der einzelnen Messwerte vom empirischen Mittelwert. Sie stellt damit eine Art durchschnittliches Abweichungsquadrat dar. Die positive Wurzel der empirischen Varianz ist die empirische Standardabweichung. Verwende die Standardabweichung, um die Streubreite der Daten um den Mittelwert zu ermitteln. Ein höherer Wert der Standardabweichung verweist auf eine größere Streubreite der Daten.

 

Was ist die Statistik?

Statistik wird einerseits als eigenständige mathematische Disziplin über das Sammeln, die Analyse, die Interpretation oder Präsentation von Daten betrachtet. Andererseits als Teilgebiet der Mathematik, insbesondere der Stochastik, angesehen. Dabei kannst du die Statistik auch als Lehre von Methoden zum Umgang mit quantitativen Informationen (Daten) verstehen. Unter anderem macht sie es möglich eine systematische Verbindung zwischen Erfahrung (Empirie) und Theorie herzustellen. Darunter versteht man auch die Zusammenfassung bestimmter Methoden zur Analyse empirischer Daten. Ein alter Ausdruck dafür war Sammelforschung.

Die Statistik wird in die folgenden drei Teilbereiche eingeteilt

  1. Die deskriptive Statistik (auch beschreibende oder empirische). Vorliegende Daten werden in geeigneter Weise beschrieben, aufbereitet und zusammengefasst. Mit ihren Methoden verdichtet man quantitative Daten zu Tabellen, graphischen Darstellungen und Kennzahlen.
  2. Die induktive Statistik (auch mathematische, schließende, beurteilende oder Inferenzstatistik). Bei der induktiven Art leitet man aus den Daten einer Stichprobe Eigenschaften einer Grundgesamtheit ab. Die Wahrscheinlichkeitstheorie liefert die Grundlagen für die erforderlichen Schätz- und Testverfahren.
  3. Die explorative Statistik (auch hypothesen-generierende, analytische oder Data-Mining). Dies ist methodisch eine Zwischenform der beiden vorgenannten Teilbereiche, bekommt als Anwendungsform jedoch zunehmend eine eigenständige Bedeutung. Mittels deskriptiver Verfahren und induktiver Testmethoden sucht sie systematisch mögliche Zusammenhänge (oder Unterschiede) zwischen Daten in vorhandenen Datenbeständen und will sie zugleich in ihrer Stärke und Ergebnissicherheit bewerten. Die so gefundenen Ergebnisse lassen sich als Hypothesen verstehen, die erst, nachdem darauf aufbauende, induktive Testverfahren mit entsprechenden (prospektiven) Versuchsplanungen sie bestätigen, als statistisch gesichert gelten können.

Der Unterschied zwischen deskriptiver und explorativer Methode wird auch an den Fragestellungen deutlich. Bei der deskriptive Statistik kannst du dich fragen, wie man eine Verteilung eines Merkmals beschreiben kann. Bei der explorative Statistik fragst du dich, was an einer Verteilung eines Merkmals bemerkenswert oder ungewöhnlich ist.

Vor allem benötigen wir die Statistik, um informierte, das heißt, richtige oder bessere Entscheidungen für Probleme treffen zu können. Diese beziehen sich nicht auf Einzelfälle, sondern auf Gesamtheiten oder Massenerscheinungen. Oder von denen ganze Bevölkerungen beziehungsweise Populationen betroffen sind.

Die wichtigsten Diagrammtypen:

  • Säulendiagramm. Das Säulendiagramm ist die am häufigsten verwendete und einfachste Diagrammart
  • Balkendiagramm
  • Additives Diagramm
  • Kurvendiagramm
  • Flächendiagramm
  • Kreisdiagramm
  • Verbunddiagramm
  • Netzdiagramm.

Was ist ein Box Plot?

Der Box-Plot (auch Box-Whisker-Plot, Kastenschaubild oder Kastengrafik) ist ein Diagramm, das zur grafischen Darstellung der Verteilung eines mindestens ordinalskalierten Merkmals verwendet wird. Es fasst dabei verschiedene robuste Streuungs- und Lagemaße in einer Darstellung zusammen. Ein Box-Plot soll schnell einen Eindruck darüber vermitteln, in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen. Deshalb werden alle Werte der sogenannten Fünf-Punkte-Zusammenfassung, also der Median, die zwei Quartile und die beiden Extremwerte, dargestellt.

Ein Box-Plot besteht immer aus einem Rechteck, genannt Box, und zwei Linien, die dieses Rechteck verlängern. Diese Linien werden als „Antenne“ oder seltener als „Fühler“ oder „Whisker“ bezeichnet und werden durch einen Strich abgeschlossen. In der Regel repräsentiert der Strich in der Box den Median der Verteilung.

Was ist ein Box Plot?

Die Box entspricht dem Bereich, in dem die mittleren 50 % der Daten liegen. Sie wird also durch das obere und das untere Quartil begrenzt, und die Länge der Box entspricht dem Interquartilsabstand. Dieser ist ein Maß der Streuung der Daten und wird durch die Differenz des oberen und unteren Quartils bestimmt. Des Weiteren wird der Median als durchgehender Strich in der Box eingezeichnet. Dieser Strich teilt das gesamte Diagramm in zwei Bereiche, in denen jeweils 50 % der Daten liegen. Durch seine Lage innerhalb der Box bekommt man also einen Eindruck von der Schiefe der den Daten zugrunde liegenden Verteilung vermittelt. Ist der Median im linken Teil der Box, so ist die Verteilung rechtsschief, und umgekehrt.

Aufgrund des einfachen Aufbaus von Box-Plots verwendet man diese hauptsächlich, wenn man sich schnell einen Überblick über bestehende Daten verschaffen will. Dabei muss nicht bekannt sein, welcher Verteilung diese Daten unterliegen. Die Box gibt an, in welchem Bereich 50 % der Daten liegen. An der Lage des Medians innerhalb dieser Box kann man erkennen, ob eine Verteilung symmetrisch oder schief ist. 

Box-Plots eignen sich auch, um eventuelle Ausreißer zu identifizieren, oder liefern Hinweise darauf, ob die Daten einer bestimmten Verteilung unterliegen. 

Wenn der Box-Plot stark asymmetrisch ist, eine ungewöhnlich hohe Ausreißerzahl oder weit von der Box entfernte Ausreißer enthält, deutet das beispielsweise darauf hin, dass die Daten nicht normalverteilt sind.

Der wesentliche Vorteil des Box-Plot besteht im raschen Vergleich der Verteilung in verschiedenen Untergruppen. Während ein Histogramm eine zweidimensionale Ausdehnung hat, ist ein Box-Plot im Wesentlichen eindimensional. So lassen sich leicht mehrere Datensätze nebeneinander (oder untereinander bei waagerechter Darstellung) auf derselben Skala darstellen und vergleichen.

Lineare Optimierung – Ungleichungssysteme

Um eine Lineare Optimierung bzw. ein lineares Optimierungsproblem lösen zu können, solltest du mit Ungleichungen und deren Systemen vertraut sein. Eine Ungleichung ist eine Behauptung, die von einer (oder mehreren) Variablen abhängt. Allerdings behauptet sie nicht, dass zwei Terme gleich sind, sondern dass ein Term größer oder kleiner (oder größer-gleich oder kleiner-gleich) als ein anderer Term ist. Variablenwerte, die eine Ungleichung erfüllen, stellen Lösungen dar. Die Menge aller Lösungen heißt Lösungsmenge. Einfache Ungleichungen kannst du ohne großartigen Formalismus durch ein bisschen Nachdenken (nach Art einer Denksportaufgabe) lösen. Es gibt Verfahren (Äquivalenzumformungen), die gewissen Regeln genügen, systematisch angewandt helfen sie dir beim Auffinden der Lösungsmenge. Um sicher zu gehen, kannst du für einzelne „Lösungskandidaten“ immer die Probe durch Einsetzen machen. Führt sie auf eine wahre Aussage, so handelt es sich tatsächlich um eine Lösung

Allerdings gibt es auch wichtige Unterschiede zwischen Gleichungen und Ungleichungen, die du beachten solltest:

Eine Ungleichung besitzt in der Regel nicht nur eine, sondern viele (unendlich viele, siehe grafischen Lösungsansatz) Lösungen. Um die Menge all dieser Lösungen angeben zu können, sind etwas mehr mathematische Kenntnisse nötig als beim Hinschreiben einer einzigen Zahl. Die Regeln zum Umformen von Ungleichungen (Äquivalenzumformungen) sind etwas komplizierter als die Regeln zum Umformen von Gleichungen. Manchmal führen sie auf Fallunterscheidungen. Um die Lösungsmenge einer Ungleichung zu finden, sind dann mehrere vereinfachte Ungleichungen zu lösen und deren Lösungsmengen zu kombinieren.

Was ist eine Lineare Optimierung?

Ungleichungsprobleme werden manchmal von vornherein in Form mehrerer Ungleichungen gestellt. Diese sollen alle gleichzeitig erfüllt sein (oder – was auch vorkommt – von denen zumindest eine erfüllt sein soll). In solchen Fällen handelt es sich genau genommen um Ungleichungssysteme, aber diese lassen sich von den Ungleichungen weniger scharf trennen als Gleichungssysteme von Gleichungen. Auch wenn eine einzige Ungleichung gegeben ist, kannst du durch eine Fallunterscheidung erkennen, dass du mehrere Ungleichungen betrachten musst. All das macht die Sache etwas komplizierter als das Gleichungslösen.

Die lineare Optimierung oder lineare Programmierung beschäftigt sich mit der Optimierung linearer Zielfunktionen über einer Menge, die durch lineare Gleichungen und Ungleichungen eingeschränkt ist. Häufig lassen sich lineare Programme (LPs) zur Lösung von Problemen einsetzen, für die keine speziell entwickelten Lösungsverfahren bekannt sind, beispielsweise bei der Planung von Verkehrs- oder Telekommunikationsnetzen oder in der Produktionsplanung. 

Das ökonomische Prinzip tritt dabei in den Formen des Maximaprinzips und des Minimalprinzips auf. Beim Maximalprinzip möchte man aus einem Bestand an Mitteln (Material, Arbeitsstunden, Kapital etc.) ein möglichst großer Nutzen und/oder Gewinn erzielen. Beim Minimalprinzip soll ein Ziel mit möglichst kleinen Aufwand oder Kosten erreicht werden.

Eine Lineare Zielfunktion, deren Funktionswert maximal oder minimal werden soll und Nebenbedingungen, die die Möglichkeiten einschränken und den Lösungsbereich begrenzen, stehen dabei als mathematische Werkzeuge zur Verfügung.

Was ist eine Primzahl?

Eine natürliche Zahl die größer als 1 ist, ist eine Primzahl, wenn sie nur durch sich selbst und durch 1 teilbar ist. Das bedeutet, eine natürliche Zahl ist eine Primzahl, wenn sie genau zwei Teiler besitzt.

Eine Primzahl ist eine natürliche Zahl, die größer als 1 und ausschließlich durch sich selbst und durch 1 teilbar ist. Das Wort „Primzahl“ leitet sich ab von lateinisch numerus primus ‚erste Zahl‘, wobei primus speziell ‚Anfang, das Erste (der Dinge)‘ bedeutet, sodass eine ‚Anfangszahl‘ gemeint ist, die man aus keiner anderen (vorhergehenden) Zahl konstruieren kann.

Die Menge der Primzahlen wird in der Regel mit dem Symbol P bezeichnet. Mit P verknüpft ist eine Folge, die nach ihrer Größe geordneten Primzahlen enthält, die man auch Primzahlfolge nennt.

Die Bedeutung der Primzahl

Für viele Bereiche der Mathematik beruht auf drei Folgerungen aus ihrer Definition:

  • Existenz und Eindeutigkeit der Primfaktorzerlegung: Jede natürliche Zahl, die größer als 1 und selbst keine Primzahl ist, lässt sich als Produkt von mindestens zwei Primzahlen schreiben. Diese Produktdarstellung ist bis auf die Reihenfolge der Faktoren eindeutig. Zum Beweis dient das
  • Lemma von Euklid: Ist ein Produkt zweier natürlicher Zahlen durch eine Primzahl teilbar, so ist mindestens einer der Faktoren durch sie teilbar.
  • Primzahlen lassen sich nicht als Produkt zweier natürlicher Zahlen, die beide größer als 1 sind, darstellen.

Diese Eigenschaften kannst du in der Algebra für Verallgemeinerungen des Primzahlbegriffs nutzen. Eine Zahl, die das Produkt von zwei oder mehr Primfaktoren ist, nennt man zusammengesetzt. Die Zahl 1 ist weder prim noch zusammengesetzt, was mit ihrer Invertierbarkeit zusammenhängt. Alle anderen natürlichen Zahlen sind eines von beiden, entweder prim (also Primzahl) oder zusammengesetzt.

Die Primfaktorzerlegung ist die Darstellung einer natürlichen Zahl n als Produkt aus Primzahlen, die man dann als Primfaktoren von n bezeichnet. Diese Darstellung ist eindeutig (bis auf die Reihenfolge der Faktoren; es ist eine Multimenge) und zählt zu den grundlegenden und klassischen Werkzeugen der Zahlentheorie. Sie ist Gegenstand des Fundamentalsatzes der Arithmetik. Es ist bisher kein effizientes Faktorisierungsverfahren bekannt, um die Primfaktorzerlegung einer beliebigen Zahl zu erhalten.

Was ist die mehrdimensionale Analysis?

Die mehrdimensionale Analysis betrachtet Funktionen mehrerer reeller Variablen, die oft als ein Vektor beziehungsweise n-Tupel dargestellt werden. Wir kennen bisher Differential- und Integralrechnung für Funktionen, die von einer Variablen abhängen. In Informatikgebieten wie Optimierung und Visual Computing spielen jedoch sehr oft Funktionen eine Rolle, die von mehreren Variablen abhängen. Die Ableitungsregeln für Funktionen einer Variabler übertragen sich direkt auf Funktionen mehrerer Variablen.

Viele Lehrbücher unterscheiden zwischen Analysis in einer und Analysis in mehreren Dimensionen. Diese Differenzierung berührt die grundlegenden Konzepte nicht, allerdings gibt es in mehreren Dimensionen eine größere mathematische Vielfalt. Die Begriffe der Norm (als Verallgemeinerung des Betrags), der Konvergenz, der Stetigkeit und der Grenzwerte lassen sich einfach von einer in mehrere Dimensionen verallgemeinern.

Wie ist die mehrdimensionale Analysis zu verstehen?

Die Differentiation von Funktionen mehrerer Variablen unterscheidet sich von der →eindimensionalen Differentiation. Wichtige Konzepte sind die Richtungs- und die partielle Ableitung, die Ableitungen in einer Richtung beziehungsweise in einer Variable sind. Der Satz von Schwarz stellt fest, wann partielle beziehungsweise Richtungsableitungen unterschiedlicher Richtungen vertauscht werden dürfen. Außerdem ist der Begriff der totalen Differentiation von Bedeutung. Diesen kannst du als die lokale Anpassung einer linearen Abbildung an den Verlauf der mehrdimensionalen Funktion interpretieren und als das mehrdimensionale Analogon der (eindimensionalen) Ableitung verstehen. 

Der Satz von der impliziten Funktion über die lokale, eindeutige Auflösung impliziter Gleichungen ist eine wichtige Aussage der mehrdimensionalen Analysis und kann als eine Grundlage der Differentialgeometrie verstanden werden.

In der mehrdimensionalen Analysis gibt es unterschiedliche Integralbegriffe wie das Kurvenintegral, das Oberflächenintegral und das Raumintegral. Jedoch von einem abstrakteren Standpunkt aus der Vektoranalysis unterscheiden sich diese Begriffe nicht. Zum Lösen dieser Integrale sind der Transformationssatz als Verallgemeinerung der Substitutionsregel und der Satz von Fubini, welcher es erlaubt, Integrale über n-dimensionale Mengen in iterierte Integrale umzuwandeln, von besonderer Bedeutung. 

Auch die Integralsätze aus der Vektoranalysis von Gauß, Green und Stokes sind in der mehrdimensionalen Analysis von Bedeutung. Du kannst sie als Verallgemeinerung des Hauptsatzes der Integral- und Differentialrechnung verstehen.

Werde Teil von Lernflix

Bleib´ am Laufenden und versäume keinen neuen Beitrag von lernflix

Newsletter-anmeldunG