Statistisches Testen

Einleitung

Statistisches Testen ist eine grundlegende Methode in Wissenschaft und Praxis. Sie dient dazu, Hypothesen, also begründete Vermutungen über die Beziehung von Merkmalen in einer Grundgesamtheit, anhand von Stichproben zu überprüfen. Man spricht deshalb auch von Hypothesentests. In der Regel stehen sich dabei zwei entgegengesetzte Hypothesen gegenüber: die Nullhypothese, die meist dem wissenschaftlichen Ist-Zustand wiedergibt, und die Alternativhypothese, die einen gewünschten Erkenntnisgewinn beschreibt. Oft wird die Annahme der Alternativhypothese angestrebt, wobei aber auch Problemstellungen existieren, bei denen auf die Formulierung einer Alternativhypothese verzichtet werden kann oder bei denen die Annahme (oder Nichtablehnung) der Nullhypothese angestrebt wird. Ein Beispiel wäre die Überprüfung eines Sollwertes in einem Produktionsprozess. In diesem Fall besagt die Nullhypothese, dass der Sollwert eingehalten wird, und es wird die Nichtablehnung angestrebt. Die aufgestellte Nullhypothese wird anhand einer Stichprobe überprüft. Widerspricht das Stichprobenergebnis nicht dieser Hypothese, wird diese beibehalten. In diesem Fall spricht man auch von einem Signifikanztest.

Kategorisierung von Hypothesentests

Es existieren viele verschiedene Arten von Hypothesentests, deren Wahl von der Art der Daten und der spezifischen Fragestellung abhängt. Eine Möglichkeit, diese Tests zu kategorisieren, besteht darin, sie nach den Verteilungen, auf denen sie basieren, einzuteilen. Beispiele hierfür sind Chi-Quadrat-Tests, F-Tests oder t-Tests, die als parametrische Tests bezeichnet werden, da ihre zugrundeliegende Teststatistik einer bestimmten parametrischen Verteilung folgt. Im Gegensatz dazu setzen nichtparametrische Tests keine bestimmte Verteilung voraus. Sie sind dadurch flexibler, besitzen aber eine geringere Teststärke. Die Bedeutung der Teststärke eines statistischen Tests wird im Abschnitt “Fehlerarten” erläutert. Dieses Kapitel behandelt ausschließlich parametrische Tests, um ein grundlegendes Verständnis für das Thema zu vermitteln.

Eine weitere Möglichkeit, Hypothesentests zu kategorisieren, besteht darin, sie nach dem Ziel der Tests zu gliedern. Bei Wolfram (2010) wird zum Beispiel zwischen Lageparametertests, Anpassungs- oder Verteilungstests, Varianztests und Abhängigkeitstests unterschieden.

Durchführungsbeispiel

In diesem Kapitel wird der Einstichproben-z-Test als Beispiel für einen Hypothesentest vorgestellt. Dabei handelt es sich um einen Lageparametertest, bei dem anhand des Mittelwerts einer Stichprobe getestet wird, ob dieser mit einem vorgegebenen Erwartungswert einer Grundgesamtheit, aus der die Stichprobe entnommen ist, vereinbar ist. Neben dem Einstichproben-Test existieren auch Zweistichproben-Tests, bei denen im einfachsten Fall anhand von zwei Stichprobenmittelwerten geprüft wird, ob die Erwartungswerte der zugehörigen Grundgesamtheiten gleich oder verschieden sind.

Der z-Test basiert auf der Gauß’schen Normalverteilung und wird daher auch als Gauß-Test bezeichnet. In der Praxis wird der z-Test selten verwendet, da er auf der Annahme beruht, dass die Varianz der Grundgesamtheit bekannt ist. In der Praxis ist der sehr ähnliche t-Test gebräuchlicher, da hierbei diese Annahme nicht besteht. Falls der Stichprobenumfang jedoch groß genug ist, führen sowohl t-Test als auch z-Test zu vergleichbaren Ergebnissen.

Der z-Test kann z.B. bei Produktionsprozessen mit normalverteilten Merkmalen (z.B. ein Längenmaß) angewendet werden, wenn auf Erfahrungswerte für die zugehörige Varianz der Grundgesamtheit zurückgegriffen werden kann. Mit dem Test kann dann z.B. überprüft werden, ob ein Längenmaß an Werkstücken noch dem Sollwert entspricht. Andere Beispiele, bei denen von einer bekannten Varianz der Grundgesamtheit ausgegangen werden kann, treten z.B. bei der Messung von Körpergrößen oder der Intelligenz auf. Intelligenztests werden gezielt so konzipiert, dass das betrachtete Merkmal (Intelligenzquotient) eine Standardabweichung von 15 (teilweise 10) Punkten aufweist.

Aufbau des Kapitels

Dieses Kapitel ist in die Schritte gegliedert, die im Prinzip bei der Durchführung aller statistischen Tests befolgt werden. Zu diesen Schritten gehören zunächst die Formulierung der Hypothesen, die Datenerhebung und die Überprüfung der Voraussetzungen für die Durchführung des Tests. Der darauffolgende Schritt umfasst die Berechnung einer Teststatistik, die dazu dient, eine Entscheidung über die Hypothesen zu treffen. Ob eine Hypothese angenommen oder abgelehnt wird, wird anhand von Annahme- und Ablehnungsbereichen veranschaulicht und anhand des p-Werts berechnet. Außerdem werden in diesem Kapitel die Arten von Fehlern erläutert, die bei statistischen Tests auftreten können. Abschließend wird gezeigt, wie ein t-Test mit der Programmiersprache R und der Statistiksoftware SPSS durchgeführt werden kann.

Kompakte Einführung in die Grundlagen der mathematischen Statistik und Hypothesentests finden sich in den Lehrbüchern von Papula (2016), Fahrmeier et al. (2016) und Steland (2016), auf denen auch dieses Kapitel basiert.

Hypothesen aufstellen

Sowohl der Einstichproben-t-Test als auch der Einstichproben-z-Test lassen sich für drei verschiedene Hypothesenpaare durchführen. Im einfachsten Fall wird anhand des arithmetischen Mittels $\bar{y}$ einer Stichprobe die Hypothese geprüft, dass der Erwartungswert $\mu$ der Grundgesamtheit, aus der die Stichprobe entnommen wurde, einen bestimmten Erwartungswert $\mu_0$ aufweist. Dieser Wert wird auch als Hypothesenwert bezeichnet. Die Nullhypothese $\text{H}_0$ lautet also $\text{H}_0: \quad \mu = \mu_0,$ d.h. der Erwartungswert der Grundgesamtheit stimmt mit dem Hypothesenwert überein. Die Alternativhypothese $\text{H}_1$ lautet hier
$\text{H}_1: \quad \mu \neq \mu_0.$ Bei diesem Hypothesenpaar spricht man auch von einem zweiseitigen Test. Diese Bezeichnung wird deutlich, wenn später die Teststatistiken und die entsprechenden Annahme- und Ablehnungsbereiche betrachtet werden.

Neben dem zweiseitigen (oder ungerichteten) Test, der sowohl auf zu hohe als auch auf zu niedrige Abweichungen prüft, existieren auch einseitige (rechts- oder linksgerichtete) Tests. Diese Tests werden durchgeführt, wenn das zu untersuchende Problem Einschränkungen hinsichtlich der Richtung der Abweichung mit sich bringt. In diesem Kapitel wird exemplarisch nur der zweiseitige Test vorgestellt; die konzeptionelle Erweiterung auf den einseitigen Test ist jedoch einfach möglich.

Daten erheben

In der Praxis erfolgt die Datenerhebung durch die Ziehung einer Zufallsstichprobe oder durch die Erfassung von Beobachtungen, die für eine Grundgesamtheit repräsentativ sind. Eine Grundgesamtheit ist die Menge ähnlicher Objekte bzw. statistischer Einheiten, die im Hinblick auf ein bestimmtes Merkmal untersucht werden sollen. Eine Teilmenge von $n$ Einheiten, die zufällig und unabhängig voneinander aus der Grundgesamtheit ausgewählt werden, wird als Zufallsstichprobe vom Umfang $n$ bezeichnet. Das zu untersuchende Merkmal wird durch eine Zufallsvariable $Y$ beschrieben. Die beobachteten Merkmalswerte oder Ausprägungen $y_1, y_2, \ldots, y_n$ sind Realisierungen dieser Zufallsvariablen und werden als Stichprobenwerte bezeichnet. Ein Beispiel für ein zu untersuchendes Merkmal könnte die Länge eines Werkstücks in einem Fertigungsprozess sein. Die zugehörige Grundgesamtheit könnte eine Tagesproduktion sein, und die Stichprobe könnte eine Teilmenge daraus sein.

In dem hier vorgestellten Beispiel erfolgt die Ziehung einer Stichprobe per Simulation. Die folgende Abbildung zeigt eine Wahrscheinlichkeitsverteilung einer Grundgesamtheit. Es handelt sich um eine Normalverteilung mit vorgegebenen Parametern für Erwartungswert $\mu_0$ und Standardabweichung $\sigma$ ( $\mu_0=5$ , $\sigma=1)$ . Die konkreten Zahlenwerte sind hier nur beispielhaft gewählt. Bei dieser Verteilung soll es sich um die Grundgesamtheit unter Gültigkeit der Nullhypothese handeln. Aus einer weiteren Normalverteilung kann über die Schaltfläche eine Stichprobe erzeugt werden, deren Umfang $n$ über den Schieberegler variiert werden kann. Der Maximalwert von $n$ ist hierbei nur aus Gründen der besseren Darstellbarkeit begrenzt. Der Erwartungswert $\mu$ der Verteilung, aus der die Strichprobe gezogen wird, ist zu diesem Zeitpunkt noch unbekannt. Allerdings ist der Wert der Varianz bekannt, der dem der Grundgesamtheit unter der Nullhypothese entspricht. Die Kenntnis der Varianz ist eine Voraussetzung für den z-Test. Ziel des Tests ist es, festzustellen, ob der Ursprung der Stichprobe mit der Grundgesamtheit unter der Nullhypothese vereinbar ist, also nicht stärker abweicht als durch Zufall zu erwarten wäre.

Stichprobenumfang n

Nach der Ziehung der Stichproben wird die Häufigkeitsverteilung der Stichproben ebenfalls in der Abbildung dargestellt. Außerdem ist der Stichprobenmittelwert $\bar{y}$ angegeben. Dieser wird mit

$\bar{y} = \frac{1}{n} \sum_{i=1}^{n}y_i$

berechnet und ist ein Schätzwert für den unbekannten Mittelwert $\mu$ . Bei dem Schätzwert handelt es sich um eine Realisierung der Stichprobenfunktion $\bar{Y}$ , wobei

$\bar{Y} = \frac{1}{n} \sum_{i=1}^{n} Y_i.$

In dieser Formel sind $Y_i$ unabhängige Zufallsvariablen, die alle die gleiche Verteilung wie $Y$ aufweisen. Stichprobenfunktionen werden auch als Statistiken und im Falle von Hypothesentests genauer als Teststatistiken bezeichnet. Da $\bar{Y}$ von den Zufallsvariablen $Y_i$ abhängt, ist $Y$ ebenfalls eine Zufallsvariable mit einer berechenbaren Wahrscheinlichkeitsverteilung.

Voraussetzungen prüfen

Jeder statistische Test unterliegt gewissen Voraussetzungen, die vor Durchführung geprüft werden müssen oder deren Einhaltung plausibel begründet werden muss. Die Einhaltung der Voraussetzungen ist z.B. durch vorangegangene Untersuchungen, Erfahrungswerte oder durch das Versuchsdesign gegeben. Folgende Voraussetzugen müssen für die Durchführung des z-Tests erfüllt sein:

Die Stichprobenwerte bzw. Beobachtungen müssen zufällig gezogen werden und voneinander unabhängig sein. Das bedeutet, dass alle statistische Einheiten die gleiche Wahrscheinlichkeit besitzen, ausgewählt zu werden, und dass sich die Stichprobenwerte nicht gegenseitig beeinflussen.
Die Zufallsvariable $\bar{Y}$ sollte (annähernd) normalverteilt sein. Diese Voraussetzung ist gegeben, wenn die Stichprobe selbst aus einer normalverteilten Grundgesamtheit stammt. Bei ausreichend großem Stichprobenumfang ( $n \geq 30$ ) kann aufgrund des Zentralen Grenzwertsatzes auch bei nicht normalverteilten Grundgesamtheiten ebenfalls von einer angenäherten Normalverteilung ausgegangen werden.
Die Standardabweichung $\sigma$ der Grundgesamtheit muss bekannt sein. Für ausreichend große Stichprobenumfänge ( $n \geq 30$ ) kann die Standardabweichung jedoch auch aus der Stichprobe geschätzt werden, da die Stichprobenstandardabweichung dann eine gute Schätzung der Standardabweichung der Grundgesamtheit darstellt. Bei unbekannter Standardabweichung und geringen Stichprobenumfängen wird sonst der t-Test angewendet.

In diesem Beispiel sind alle Voraussetzugen aufgrund der Art der Datengenerierung erfüllt.

Teststatistik berechnen

Die Teststatistik eines statistischen Tests ist eine an das konkrete Problem angepasste Stichprobenfunktion, aus der ein von den Stichprobendaten abhängiger Prüfgrößenwert berechnet wird. Dieser Prüfgrößenwert wird zur Bewertung der Nullhypothese herangezogen. Neben der Bezeichnung Teststatistik sind u.a. die Bezeichnungen Test- oder Prüfvariable gebräuchlich. Je nach Art des Hypothesentests nimmt die Teststatistik unterschiedliche Formen an. In jedem Fall gilt jedoch, dass ihre Wahrscheinlichkeitsverteilung als bekannt oder annähernd bekannt vorausgesetzt werden muss. Die passende Teststatistik für den z-Test ist die Stichprobenfunktion $\bar{Y}$ . Unter der Bedingung, dass $Y$ normalverteilt ist mit den Parametern $\mu$ und $\sigma$ , folgt $\bar{Y}$ ebenfalls einer Normalverteilung mit dem Erwartungswert $\mu_{\bar{y}} = \mu$ und der Standardabweichung $\sigma_{\bar{y}}=\sigma/\sqrt{n}$ . Die Standardabweichung der Teststatistik ist der Standardfehler des Mittelwertes (vgl. Zentraler Grenzwertsatz) und ist damit abhängig vom Stichprobenumfang. Nimmt man zusätzlich die Gültigkeit der Nullhypothese an, so hat die Verteilung der Teststatistik den Erwartungswert $\mu_{\bar{y}} = \mu_0$ und die zugehörige Wahrscheinlichkeitsverteilung wird als Nullverteilung bezeichnet. Die Nullverteilung ist in der folgenden Abbildung dargestellt.

Stichprobenumfang n

Der Maßstab der horizontalen Achse in der Abbildung kann durch Anklicken und Ziehen variiert werden und durch Doppelklicken zurückgesetzt werden. Der ursprüngliche Maßstab entspricht dem Maßstab der Abbildung im Schritt “Daten erheben”. Dadurch wird der Einfluss des Stichprobenumfangs auf die Nullverteilung deutlich. Wählt man mit dem Schiebregler zum Beispiel einen besonders kleinen Stichprobenumfang, wird der Standardfehler des Mittelwerts und damit die Streuung der Verteilung besonders groß.

Prüfgrößenwert, Annahme- und Ablehnungsbereich

In der obigen Abbildung wird auch der Wert der Teststatistik für die Stichprobe (Realisierung der Teststatistik) angezeigt. Dieser Wert wird u.a. als Prüfgrößenwert oder als Prüf- oder Testwert bezeichnet.

Die Abbildung zeigt außerdem die zum Erwartungswert symmetrischen Streubereiche, in die 90%, 95% oder 99% der Prüfgrößenwerte bei einer unendlich großen Anzahl von Ziehungen fallen würden (Gültigkeit der Nullhypothese vorausgesetzt). Diese Streubereiche können durch Anklicken der Legende ein- oder ausgeblendet werden. Die dargestellten Flächen entsprechen den jeweiligen Anteilen an der Gesamtfläche unter der Verteilungskurve. Die zugehörigen Streuintervalle werden als Nichtablehnungs- oder Annahmebereiche bezeichnet. Diese Bezeichnung resultiert daraus, weil man die Gültigkeit der Nullhypothese annimmt, wenn der Prüfgrößenwert in diesen Bereich fällt. Der Annahmebereich ist also die Menge der Werte der Teststatistik, die mit der Nullhypothese vereinbar sind. An dieser Stelle wird deutlich, dass die Testentscheidung davon abhängen wird, welcher konkrete Annahmebereich gewählt wird. Die Wahl des Annahmebereichs wird später im Zusammenhang mit der Erläuterung des Signifikanzniveaus behandelt.

Die zum Annahmebereiche komplementären Bereiche werden als Ablehnungsbereiche bezeichnet. Liegt der Prüfgrößenwert im Ablehnungsbereich, weicht dieser so deutlich vom Hypothesenwert ab, dass dies für die Nichtannahme der Nullhypothese spricht.

Standardisierte Werte und Signifikanzniveau

Hat man vor der Durchführung des Tests die Annahme- und Ablehnungsbereiche festgelegt, so liegen an dieser Stelle bereits genügend Informationen vor, um eine Entscheidung über die aufgestellten Hypothesen zu treffen. In der Regel arbeitet man jedoch mit standardisierten Teststatistiken und standardisierter Nullverteilung, was den Vorteil bietet, dass man auf die Standardnormalverteilung zurückgreifen kann. Dadurch kann man zum einen bei der manuellen Durchführung des Hypothesentests auf tabellierte Werte zurückgreifen und zum anderen lassen sich statistische Effekte zwischen verschiedenen Tests besser vergleichen.

Die Standardisierung $\bar{Z}$ der Zufallsvariable $\bar{Y}$ erfolgt über die z-Transformation, also

$\bar{Z} = \frac{ \bar{Y} - \mu_0}{\frac{\sigma}{\sqrt{n}}}.$

Durch diese Transformation folgt $\bar{Z}$ der Standardnormalverteilung. Im Falle eines t-Tests würde man an dieser Stelle statt der Standardabweichung $\sigma$ die aus der Stichprobe geschätzte Standardabweichung $s$ verwenden. Die zugehörige Teststatistik folgt dann einer t-Verteilung.

Für den z-Test wird die Standardisierung $\bar{z}$ des Stichprobenmittelwertes mit $\bar{z} = \frac{ \bar{y} - \mu_0}{\frac{\sigma}{\sqrt{n}}}$ berechnet. Der Wert $\bar{z}$ ist somit der standardisierte Prüfgrößenwert.

Die folgende Abbildung zeigt die standardisierte Nullverteilung und den Prüfgrößenwert für die vorhandene Stichprobe.

Im Gegensatz zur vorherigen Abbildung werden hier anstelle der Annahmebereiche die Ablehnungsbereiche (oder kritischen Bereiche) dargestellt. Diese Bereiche werden durch ein Signifikanzniveau $\alpha$ festgelegt, das vor der Durchführung eines statistischen Tests festgesetzt wird. Insbesondere ist es unzulässig, das Signifikanzniveau so an das Stichprobenergebnis anzupassen, dass eine gewünschte Testentscheidung erzielt wird. Durch das Signifikanzniveau wird die Wahrscheinlichkeit für ein fälschliche Ablehnung der Nullhypothese vorgegeben. Es wird daher auch als Irrtumswahrscheinlichkeit (genauer: maximal zulässige oder obere Grenze der Irrtumswahrscheinlichkeit) bezeichnet. Der damit verbundene Fehler wird als Fehler 1. Art oder $\alpha$ -Fehler bezeichnet. Der sogenannte Fehler 2. Art oder $\beta$ -Fehler wird im Abschnitt “Fehlerarten” erläutert. Aufgrund von Konventionen wird in statistischen Test häufig zu den Signifikanzniveaus 10%, 5% oder 1% getestet. Für die Wahl des Signifikanzniveaus ist der jeweilige Kontext entscheidend: Wenn die irrtümliche Ablehnung der Nullhypothese gravierende Auswirkungen hätte, wird das Signifikanzniveau besonders niedrig gewählt und der Test dadurch besonders streng. Die Verringerung des Risikos eines Fehlers der 1. Art wird jedoch durch eine Erhöhung des Fehlers der 2. Art erkauft. Dieser Zusammenhang wird ebenfalls im Abschnitt “Fehlerarten” erläutert.

Überschreitungswahrscheinlichkeit und p-Wert

Als Alternative zu den kritischen Bereichen wird häufig mit der Überschreitungswahrscheinlichkeit (p-Wert) gearbeitet, um eine Testentscheidung zu treffen. Der p-Wert ist die Wahrscheinlichkeit, unter der Voraussetzung der Gültigkeit der Nullhypothese einen Prüfgrößenwert zu erhalten, der genauso extrem oder extremer in Richtung der Alternativhypothese ist wie der beobachtete Wert. Der p-Wert kann ebenfalls als Fläche unter der Verteilungsdichte dargestellt werden. Es ist der Bereich, der den ermittelten Prüfgrößenwert in Richtung der Alternativhypothese überschreitet und somit extremer ist. Für den hier betrachteten zweiseitigen Test (ungerichtete Alternativhypothese) ist zu beachten, dass die Fläche, die den p-Wert repräsentiert, zweigeteilt ist, d.h. ein Flächenstück liegt links und das andere rechts vom Erwartungswert. Je kleiner der p-Wert ist, desto unwahrscheinlicher ist es, dass das Stichprobenergebnis unter Gültigkeit der Nullhypothese zustande gekommen ist.

Mithilfe des p-Werts lässt sich eine formale Regel formulieren, nach der eine Testentscheidung getroffen wird: Ist der p-Wert kleiner als das vorgegebene Signifikanzniveau $\alpha$ , wird die Nullhypothese verworfen, ansonsten wird sie beibehalten.

Eine Testentscheidung mithilfe des p-Werts ist in der Praxis gebräuchlicher als die Verwendung von Annahme- und Ablehnungsbereichen. Aus diesem Grund wird der p-Wert standardmäßig auch von Statistikprogrammen ausgegeben.

Schlussfolgerung

Anhand des p-Werts wird entschieden, ob die Nullhypothese abgelehnt oder beibehalten wird. Ist der p-Wert kleiner als das zuvor festgelegte Signifikanzniveau $\alpha$ (z.B. 0.05), wird die Nullhypothese abgelehnt und die Alternativhypothese angenommen. Im vorliegenden Beispiel besagt die Alternativhypothese, dass sich der Erwartungswert $\mu$ vom Hypothesenwert $\mu_0$ unterscheidet. Wenn die Alternativhypothese angenommen wird, geht man nicht mehr von einer nur zufälligen Abweichung zwischen Stichprobenmittelwert und Hypothesenwert aus, sondern spricht von einer statistisch signifikanten Abweichung. Wenn der p-Wert hingegen größer als das Signifikanzniveau ist, wird die Nullhypothese beibehalten.

Fehlerarten

Die Testentscheidung, ob die Null- bzw. Alternativhypothese angenommen oder abgelehnt wird, kann zu vier verschiedenen Situationen führen, abhängig davon, welche Option aufgrund der Stichprobe gewählt wird und welche Hypothese tatsächlich wahr ist. In der folgenden Tabelle sind diese vier Situationen zusammengefasst.

		Entscheidung für
		H₀	H₁
in Realität zutreffend	H₀	richtige Entscheidung	Fehler 1. Art (α-Fehler)
in Realität zutreffend	H₁	Fehler 2. Art (β-Fehler)	richtige Entscheidung

Zwei der möglichen Ausgängen führen zu einer richtigen Testentscheidung. Das bedeutet aber auch, dass trotz eines korrekt durchgeführten Tests eine Fehlentscheidung getroffen werden kann. Diese werden als Fehler 1. und 2. Art bzw. $\alpha$ - und $\beta$ -Fehler bezeichnet. Der Fehler 1. Art tritt auf, wenn die Nullhypothese aufgrund des Stichprobenergebnisses verworfen wird, obwohl sie in Wirklichkeit wahr ist. Die Irrtumswahrscheinlichkeit eines Fehlers 1. Art wird mit $\alpha$ bezeichnet und entspricht dem Signifikanzniveau. Ein Fehler 2. Art tritt auf, wenn die Nullhypothese beibehalten wird, obwohl sie in der Realität nicht zutrifft. Die Wahrscheinlichkeit eines Fehlers 2. Art wird mit $\beta$ bezeichnet. Die Gegenwahrscheinlichkeit $1-\beta$ ist die Wahrscheinlichkeit, dass durch den Test die wahre Alternativhypothese angenommen wird. Diese Wahrscheinlichkeit wird als Trennschärfe oder Teststärke (Power) des Testverfahrens bezeichnet.

Die einzelnen Fehlerwahrscheinlichkeiten können als Flächen unter der Null- und der Alternativverteilung dargestellt werden. Die Alternativverteilung ist die Wahrscheinlichkeitsdichteverteilung der Teststatistik im Falle einer gültigen Alternativhypothese. Der Fehler 1. Art wurde bereits im Zusammenhang mit dem Signifikanzniveau erläutert und visualisiert. In der folgenden Abbildung wird dieser Fehler als Fläche unter der Nullverteilung dargestellt. Über das Dropdown-Menü kann die Irrtumswahrscheinlichkeit $\alpha$ variiert werden.

Irrtumswahrscheinlichkeit α

Stichprobenumfang n

Zusätzlich zur Nullverteilung kann auch die Alternativverteilung eingeblendet werden. Im Gegensatz zu den bisherigen Annahmen wird nun der Alternativhypothese ein konkreter Wert zugewiesen. Bisher lautete die Alternativhypothese $H_1\!:~\mu\neq\mu_0$ . Dabei handelte es sich um eine zusammengesetzte Hypothese, die alle Werte umfasste, die nicht mit $\mu_0$ übereinstimmten. Um den Fehler 2. Art zu quantifizieren, ist es jedoch notwendig, dass sich die Alternativhypothese auf einen konkreten Alternativwert $\mu_1$ bezieht. Dadurch wird die Alternativhypothese zu einer einfachen oder punktförmigen Hypothese, also $H_1\!:~\mu=\mu_1$ . In der Abbildung kann dieser Wert variiert werden. In dem vorliegenden Beispiel ist $\mu_1$ der Erwartungswert der Verteilung, aus der die zuvor generierte Stichprobe stammt. Diese Verteilung war in den vorangegangenen Schritten unbekannt. Durch Variation des Alternativwertes ist es jetzt möglich, Stichproben zu generieren, die sehr nahe am Hypothesenwert liegen oder sehr weit davon entfernt sind.

Die Fläche unter der Alternativverteilung, die sich über den zuvor definierten Annahmebereich erstreckt, entspricht der Wahrscheinlichkeit $\beta$ eines Fehlers 2. Art und kann über die Legende eingeblendet werden. Wenn man die Irrtumswahrscheinlichkeit bei ansonsten unveränderten Werten für $\mu_0$ , $\mu_1$ und $n$ variiert, wird eine wichtige Erkenntnis deutlich. Verringert man die Wahrscheinlichkeit für einen Fehler 1. Art, erhöht man gleichzeitig die Wahrscheinlichkeit für einen Fehler 2. Art. Die Reduzierung der einen Fehlerart wird also durch die Erhöhung der anderen Fehlerart erkauft. Eine Möglichkeit, auch die Wahrscheinlichkeit $\beta$ zu verringern, besteht darin, den Stichprobenumfang zu erhöhen. Dadurch verringert sich die Streubreite der Verteilungen und damit auch die Überdeckungen.

Manuelle Durchführung

Statistische Tests werden in der Regel mithilfe von Statistiksoftware durchgeführt. Um jedoch das Verständnis für die hier vorgestellte Methode zu vertiefen, erfolgt zunächst die manuelle Durchführung eines Anwendungsbeispiels, gefolgt von der Durchführung mit R und SPSS.

Wie bereits erläutert, besitzt der t-Test in der Praxis eine größere Bedeutung als der z-Test, weshalb dieser Test hier durchgeführt wird.

Für Demonstrationszwecke wird der mice-Datensatz aus dem R-Paket datarium verwendet. Dieses Paket beinhaltet noch weitere Datensätze, die häufig zur Veranschaulichung statistischer Methoden genutzt werden. Die nachfolgende Datentabelle enthält die Messwerte dieses Datensatzes.

Datentabelle (ein-/ausblenden)

Der verwendete Datensatz enthält zehn Zeilen und zwei Spalten, wobei die erste Spalte einen Bezeichner und die zweite das Gewicht von Mäusen in Gramm enthält. Diese Gewichtsmessungen entsprechen den beobachteten Merkmalswerten $y_1, y_2, \dots, y_n$ .

Ziel des statistischen Tests ist es, zu prüfen, ob das durchschnittliche Gewicht der Mäuse signifikant von einem festgelegten Hypothesenwert von $22\,\text{g}$ abweicht. Hierfür wird ein Einstichproben-t-Test angewendet, wobei ein Signifikanzniveau von $5\,\%$ gewählt wird.

Aus den Daten lassen sich der Stichprobenumfang $n$ , der Stichprobenmittelwert $\bar{y}$ und die Stichprobenstandardabweichung $s$ bestimmen. Die hier dargestellten Zahlenwerte werden mit maximal drei signifikanten Stellen und ohne Einheiten ausgegeben:

$\begin{align*} n &= 10~, \\ &\\ \bar{y} &= \frac{1}{n} \sum_{i=1}^{n}y_i \\ &= 20.1~,\\ &\\ s &= \frac{1}{n-1} \sum_{i=1}^{n} (y_i - \bar{y})^2 \\ &= 1.9~. \end{align*}$

Der Hypothesenwert $\mu_0$ wird festgelegt auf
$\mu_0 = 22~.$

Auf Basis dieser Angaben lässt sich der Prüfgrößenwert $t$ berechnen:

$\begin{align*} t &= \frac{ \bar{y} - \mu_0}{\frac{s}{\sqrt{n}}} \\ &= -3.1~. \end{align*}$

Die dazugehörige Teststatistik $T$ folgt einer t-Verteilung mit Freiheitsgrad $\nu$ :

$\begin{align*} \nu &= n - 1\\ &= 9~. \end{align*}$

Da keine spezifische Richtung der Abweichung vom Hypothesenwert angenommen wird, wird ein zweiseitiger t-Test durchgeführt. Dies bedeutet, dass sowohl deutlich höhere als auch niedrigere Werte als der Hypothesenwert als Indikatoren gegen die Nullhypothese gewertet werden.

Der gesuchte p-Wert für den zweiseitigen t-Test wird folgendermaßen berechnet:

$\begin{align*} p &= 2 ~ \operatorname{P}(T > |t|;~\nu) \\ &= 2 ~ (1 - F(|t|;~\nu)) \\ &= 0.0127 \end{align*}$

In dieser Formel ist $\operatorname{P}(T > |t|)$ die Wahrscheinlichkeit, einen Prüfgrößenwert zu erhalten, der betragsmäßig den beobachteten Wert überschreitet. Die Funktion $F(q; \nu)$ ist die kumulative Verteilungsfunktion der t-Verteilung mit dem Freiheitsgrad $\nu$ .

Da der p-Wert das festgelegte Signifikanzniveau von $5\,\%$ unterschreitet, folgern wir, dass der Mittelwert der Stichprobe signifikant vom Hypothesenwert abweicht.

Durchführung in R

Für die Durchführung des t-Tests in R wird die Funktion t.test() verwendet, die in R immer zur Verfügung steht, ohne dass ein zusätzliches Paket geladen werden muss.

Im Gegensatz dazu existiert für die Durchführung des z-Tests in der Basisversion von R kein eigener Befehl. Jedoch kann die Funktionalität über ein Paket eingebunden werden (z.B. die Funktion Gauss.test() aus dem Paket Compositions, oder die Funktion z.test() aus dem Paket BSDA).

Daten importieren

Es wird hier wieder der Datensatz mice aus dem Paket datarium verwendet. Da das Paket nicht standardmäßig installiert ist, muss es bei lokaler Ausführung ggf. über install.package() installiert werden (hier jedoch nicht erforderlich). Über den Befehl library() und der Angabe des Namens des Paketes wird das Paket geladen. Durch die Angabe des Namens des Datensatzes wird dieser ausgegeben.

# install.packages("datarium")
library("datarium")
mice

Wie im vorherigen Beispiel soll wieder die Frage beantwortet werden, ob das Durchschnittsgewicht vom festgelegten Hypothesenwert $\mu_0=22\,\text{g}$ signifikant abweicht. Das Signifikanzniveau soll wieder $\alpha = 5\,\%$ betragen.

Teststatistik und p-Wert berechnen

Der Befehl t.test() führt den t-Test aus. Dabei wird der Vektor mit den Einzelwerten der Stichprobe an das erste Argument x übergeben. Das zweite Argument mu ist der Hypothesenwert der Nullhypothese, hier mu = 22. Ohne die Angabe des optionalen Arguments "alternative", wird ein zweiseitiger ("two.sided") Test durchgeführt. Alternative Angaben sind "less" und "greater" für die jeweiligen einseitigen Tests. Ohne die Angabe des optionalen Arguments "conf.level" wird der Test zu einem Signifikanzniveau von $\alpha = 5\,\%$ durchgeführt.

t.test(x = mice$weight, mu = 22)

Die hier interessierende Ausgabegröße ist der p-Wert ("p-value"). Wie erwartet, ergibt sich der gleiche (gerundete) p-Wert und damit der gleiche Testausgang wie bei der manuellen Durchführung.

Durchführung in SPSS

In SPSS wird der t-Test anhand der graphischen Benutzeroberfläche durchgeführt.

1. Daten importieren

Wie im vorherigen Fall wird auch hier der Datensatz mice verwendet. Die Daten befinden sich in der folgenden Datentabelle und können per Copy/Paste in den SPSS-Dateneditor in der Datenansicht eingefügt werden. Da die Spaltennamen mitkopiert werden, muss die erste Zeile im Dateneditor manuell gelöscht werden.

Datentabelle (ein-/ausblenden)

2. Variablen benennen

Zur besseren Nachvollziehbarkeit können die Spalten in der Variablenansicht umbenannt werden. In jedem Fall müssen der Typ, die Dezimalstellen und das Maß korrekt angegeben werden:

3. Multivariate Varianzanalyse

Die Analyse wird über die Menüabfolge Analysieren > Mittelwerte vergleichen > T-Test bei einer Stichprobe… gestartet.

4. Variablen zuordnen

Im Diaglogfenster wird das interessierende Merkmal der Stichprobe (hier die Variable weight) festgelegt. Unter Testwert wird der Hypothesenwert der Nullhypothese festgelegt, hier also 22.

5. Ausgabe

Das Ergebnis der Analyse wird in Tabellenform ausgegeben. Die Tabelle enthält die notwendigen Daten, um eine Testentscheidung zu treffen. SPSS liefert erwartungsgemäß die gleichen Zahlenwerte wie R, jedoch wird der vergleichsweise kleine p-Wert (Spalte “Sig. (2-seitig)”) gerundet ausgegeben.

Literaturverzeichnis

Fahrmeier, L., Heumann, C., Künstler, R., Pigeot, I., & Tutz, G. (2016). Statistik - Der Weg zur Datenanalyse (8. Auflage). Springer Spektrum.

Papula, L. (2016). Mathematik für Ingenieure und Naturwissenschaftler - Band 3 - Vektoranalysis, Wahrscheinlichkeitsrechnung, Mathematische Statistik, Fehler- und Ausgleichsrechnung (7. Auflage). Springer Vieweg.

Steland, A. (2016). Basiswissen Statistik - Kompaktkurs für Anwender aus Wirtschaft, Informatik und Technik (4. Auflage). Springer Spektrum.

Wolfram Research (2010). Hypothesis Tests. Wolfram Language function. https://reference.wolfram.com/language/guide/HypothesisTests.html

Einleitung

Kategorisierung von Hypothesentests

Durchführungsbeispiel

Aufbau des Kapitels

Hypothesen aufstellen

Daten erheben

Voraussetzungen prüfen

Teststatistik berechnen

Prüfgrößenwert, Annahme- und Ablehnungsbereich

Standardisierte Werte und Signifikanzniveau

Überschreitungswahrscheinlichkeit und p-Wert

Schlussfolgerung

Fehlerarten

Manuelle Durchführung

Datentabelle (ein-/ausblenden)

Durchführung in R

Daten importieren

Teststatistik und p-Wert berechnen

Durchführung in SPSS

1. Daten importieren

Datentabelle (ein-/ausblenden)

2. Variablen benennen

3. Multivariate Varianzanalyse

4. Variablen zuordnen

5. Ausgabe

Literaturverzeichnis

Statistisches Testen

Bernhard Poethke