Mathematik für Informatik 2

Einführung in die Analysis

Auf diesen Seiten werden die wesentlichen Inhalte der Vorlesung Mathematik für Informatik 2 zusammengefasst, deren Schwerpunkt die Grundlagen der Analysis sind. Es gibt darüber hinaus zahlreiche Lehrbücher über Analysis, die im Wesentlichen ähnlich aufgebaut sind. Diese Bücher sind meist sehr umfangreich und wir haben in dieser Vorlesung versucht, uns auf die Kernaspekte der Analysis zu konzentrieren und dabei trotzdem den Großteil der vorgestellten mathematischen Aussagen zu beweisen. Neben den Grundlagen der Analysis soll Ihnen diese Vorlesung damit auch einen Einblick in die mathematische Beweisführung geben, die Sie im Laufe des Studiums auch in vielen anderen Kontexten anwenden werden.

Die stärksten Überschneidungen hat die Vorlesung mit dem Lehrbuch “Analysis 1” bzw. “Analysis 2” von Otto Forster. Das zweite Kapitel, in dem wir die reellen Zahlen einführen, orientiert sich am lesenswerten Skript von Dr. R. Busam (Universität Heidelberg). Außerdem basiert der gesamte Inhalt auf dem vorherigen MafI2-Skript von Prof. Dr. Peter Buchholz und Prof. Dr. Günter Rudolph. Ein weiteres zu empfehlendes Lehrbuch mit sehr vielen Anwendungsbeispielen und Programmieranwendungen in Python ist “Konkrete Mathematik – nicht nur für Informatiker” von Prof. Dr. Edmund Weitz (Universität Hamburg), von dem manche unserer Demo-Applikationen inspiriert wurden.

Das hier gewählte Onlineformat für das Skript bietet viele Vorteile und (hoffentlich) wenige Nachteile für Sie. So können wir zum Beispiel interaktive Demos einbinden, sowie Elemente interaktiv ein- und ausblenden. Die wichtigsten Funktionalitäten dieses Online-Skripts haben wir auf einer kleinen Tutorial-Seite zusammengefasst. Dies ist allerdings erst die erste Version des Skripts und sollten Ihnen Fehler auffallen, oder falls sie Ideen für sinnvolle Erweiterungen haben, geben Sie uns gerne Feedback.

Grundlagen

Sehr allgemein gefasst ist die Analysis die Wissenschaft der Beziehungen zwischen Zahlen. Die Zahlen bilden damit also das Fundament der Analysis und wir müssen uns zunächst einig sein, was diese überhaupt sind. Bevor wir jedoch in auto mit den Definitionen der Zahlenmengen starten können, führen wir ein paar grundlegende Definitionen über Aussagen und allgemeine Mengen in auto ein. Außerdem benötigen wir Techniken, die es uns erlauben, aus bestehenden Aussagen neue wahre Zusammenhänge/Eigenschaften zu erschließen. Die wichtigesten Beweistechniken werden dazu in auto vorgestellt. Die Inhalte dieses Grundlagenkapitels haben Sie vielleicht schon in der Veranstaltung Mathematik für Informatik 1 kennen gelernt, da diese in fast jedem Gebiet der Mathematik essenziell sind. Sollten ihnen die Themen also noch gut im Gedächtnis sein, genügt es vermutlich, dieses Kapitel grob zu überfliegen.

Aussagen und Mengen

Aussagen sind (schrift)sprachliche Gebilde, denen ein Wahrheitswert wahr \((w)\) oder falsch \((f)\) zugeordnet werden kann.

Wir starten mit unserer ersten Definition. Bei Definitionen geht es darum, dass wir einem Objekt, das eine Anzahl von Eigenschaften besitzt, einen Namen geben wollen. In diesem Fall wollen wir “(schrift)sprachlichen Gebilden, denen ein Wahrheitswert wahr oder falsch zugeordnet werden kann” den Namen “Aussage” geben, damit wir in Zukunft einfach dieses kurze Wort statt der langen Beschreibung verwenden können. Definitionen benötigen daher auch keinen Beweis, da wir uns dabei nur auf eine Kurzschreibweise festlegen aber noch keine Behauptungen damit aufstellen. Wir werden Definitionen immer mit der gleichen Farbe hinterlegen und durchnummerieren. Für unsere Definitionen werden wir in vielen Fällen auch direkt Beispiele angeben:

Ein paar Beispiele für Aussagen:

  1. Delfine sind Fische. \((f)\)

  2. Fünf ist eine ungerade Zahl. \((w)\)

  3. Es gibt unendlich viele Primzahlen. \((w)\)

  4. Jede gerade natürliche Zahl größer als zwei ist Summe zweier Primzahlen. (?)

Der Wahrheitswert der letzten Aussage ist unbekannt. Sie wird auch als Goldbachsche Vermutung bezeichnet und stellt eine unbewiesene Aussage dar. Das heißt aber nicht, dass es keine Aussage ist, sie ist eindeutig entweder wahr oder falsch, wir wissen nur noch nicht, welcher der beiden Fälle zutrifft.

Die folgenden beiden Sätze stellen keine Aussagen dar:

  1. Guten Tag!

  2. Diese Aussage ist falsch.

Machen wir gleich mit einer zweiten Definition weiter:

Seien \(A\) und \(B\) Aussagen. Wir definieren mithilfe folgender Operationen neue Aussagen:

  1. Negation (“nicht \(A\)”):
    Die Aussage ist wahr, wenn \(A\) falsch ist.
    Symbolschreibweise: \((\neg A)\)

  2. Disjunktion (“\(A\) oder \(B\)”):
    Die Aussage ist wahr, wenn mindestens eine der beiden Aussagen wahr ist.
    Symbolschreibweise: \((A \or B)\)

  3. Konjunktion (“\(A\) und \(B\)”):
    Die Aussage ist wahr, wenn beide Aussagen wahr sind.
    Symbolschreibweise: \((A \and B)\)

  4. Implikation (“aus \(A\) folgt \(B\)”):
    Die Aussage ist wahr, wenn \(A\) falsch oder \(B\) wahr ist.
    Symbolschreibweise: \((A \Rightarrow B)\)

  5. Äquivalenz (“\(A\) ist äquivalent zu \(B\)”):
    Die Aussage ist wahr, wenn beide Aussagen den gleichen Wahrheitswert besitzen.
    Symbolschreibweise: \((A \Leftrightarrow B)\)

Wir sagen statt \((A \Leftrightarrow B)\) auch häufig: \(A\) gilt genau dann, wenn \(B\) gilt.

Wir können auch mehr als zwei Aussagen mit diesen Operationen verknüpfen und durch Klammern die Rangfolge angeben, wie z.B. \(A \or (B \and C)\), gelesen “\(A\) oder \(B\) und \(C\)”. Bei der gesprochenen Variante, stellt sich bereits heraus, dass die Formelschreibweise eindeutiger ist, denn der gesprochene Satz könnte auch zu \((A \or B) \and C\) passen.

Um festzustellen, wann so eine kombinierte Aussage wahr oder falsch ist, benutzt man häufig sogenannte Wahrheitstafeln. Dabei trägt man zunächst alle in der Gesamtaussage vorkommenden Teilaussagen in jeder möglichen Kombination von wahr und falsch ein. Anschließend arbeitet man sich zur Zielaussage vor. Bei zwei Aussagen \(A\) und \(B\) ergeben sich zum Beispiel folgende Kombinationsmöglichkeiten

\(A \quad\) \(B\)
\(f\) \(f\)
\(f\) \(w\)
\(w\) \(f\)
\(w\) \(w\)

Der letzten Definition folgend können wir die Wahrheitstafel für die Basisoperationen bestimmen

\(A \:\) \(B \:\) \(\: \neg A\) \(\: A \or B \:\) \(A \and B\) \(\: A \Rightarrow B \:\) \(A \Leftrightarrow B\)
\(f\) \(f\) \(w\) \(f\) \(f\) \(w\) \(w\)
\(f\) \(w\) \(w\) \(w\) \(f\) \(w\) \(f\)
\(w\) \(f\) \(f\) \(w\) \(f\) \(f\) \(f\)
\(w\) \(w\) \(f\) \(w\) \(w\) \(w\) \(w\)

Mit den Wahrheitstafeln haben wir das erste Werkzeug, mit dessen Hilfe wir neue Zusammenhänge erschließen können. Nach auto sind zwei Aussagen äquivalent, wenn sie den gleichen Wahrheitswert besitzen. Das bedeutet, wenn für zwei Aussagen die jeweilige Spalte in der vollständigen Wahrheitstafel identisch ist, sind die Aussagen äquivalent. Damit können wir uns an unseren ersten Satz wagen. Sätze verwenden wir für alle wichtigen neuen Aussagen, die wir aus bekannten Aussagen oder Definitionen ableiten. Bisher können wir die Beweise nur über Wahrheitstafeln führen, aber wir werden in auto noch einige weitere Beweismethoden einführen.

Seien \(A\), \(B\), \(C\) Aussagen, dann gelten folgende Äquivalenzen:

\[ \begin{align*} \neg (\neg A) &\Leftrightarrow A & \text{(doppelte Negation)}\\[4mm] A \and (A \or B) &\Leftrightarrow A & \\[1mm] A \or (A \and B) &\Leftrightarrow A & \text{(Absorption)} \\[4mm] A \and B &\Leftrightarrow B \and A & \\[1mm] A \or B &\Leftrightarrow B \or A & \text{(Kommutativität)} \\[4mm] \neg (A \and B) &\Leftrightarrow \neg A \or \neg B & \\[1mm] \neg (A \or B) &\Leftrightarrow \neg A \and \neg B & \text{(de-morgansche Regeln)} \\[4mm] A \or(B \or C) &\Leftrightarrow (A \or B) \or C & \\[1mm] A \and(B \and C) &\Leftrightarrow (A \and B) \and C & \text{(Assoziativität)} \\[4mm] A \or(B \and C) &\Leftrightarrow (A \or B) \and (A \or C) & \\[1mm] A \and(B \or C) &\Leftrightarrow (A \and B) \or (A \and C) & \text{(Distributivgesetze)} \end{align*} \]

Beweis

Alle obigen Äquivalenzen sind recht einfach über Wahrheitstafeln zu beweisen, wir werden hier exemplarisch die Assoziativität von \(\or\) beweisen und die übrigen Beweise können Sie als Übung führen.

Im Fall der Assoziativität haben wir 3 Aussagen, also ergeben sich insgesamt \(8 = 2^3\) Kombinationsmöglichkeiten:

\(A \:\) \(B \:\) \(C \:\)
\(w\) \(w\) \(w\)
\(w\) \(w\) \(f\)
\(w\) \(f\) \(w\)
\(w\) \(f\) \(f\)
\(f\) \(w\) \(w\)
\(f\) \(w\) \(f\)
\(f\) \(f\) \(w\)
\(f\) \(f\) \(f\)

Zur Erinnerung, wir wollen \(A \or(B \or C) \Leftrightarrow (A \or B) \or C\) beweisen. Dafür wenden wir nun schrittweise (Klammern zuerst) die auto für \(\or\) an:

\(A \:\) \(B \:\) \(C \:\) \(\: B \or C \:\) \(\: A \or(B \or C) \:\) \(\: A \or B \:\) \(\: (A \or B) \or C\:\)
\(w\) \(w\) \(w\) \(w\) \(w\) \(w\) \(w\)
\(w\) \(w\) \(f\) \(w\) \(w\) \(w\) \(w\)
\(w\) \(f\) \(w\) \(w\) \(w\) \(w\) \(w\)
\(w\) \(f\) \(f\) \(f\) \(w\) \(w\) \(w\)
\(f\) \(w\) \(w\) \(w\) \(w\) \(w\) \(w\)
\(f\) \(w\) \(f\) \(w\) \(w\) \(w\) \(w\)
\(f\) \(f\) \(w\) \(w\) \(w\) \(f\) \(w\)
\(f\) \(f\) \(f\) \(f\) \(f\) \(f\) \(f\)

Da alle Einträge der drittletzten Spalte mit denen der letzte Spalte identisch sind, sind beide Aussagen Äquivalent.

In den Aussagen, welche wir im Laufe der Vorlesung beweisen wollen, kommen fast immer Mengen vor. Beispielsweise wollen wir eine Gleichung für alle ganzen Zahlen beweisen, oder für alle reellen Zahlen zwischen 0 und 1. Manchmal wollen wir zeigen, dass es eine bestimmte Zahl gibt, für die eine Aussage gilt. Wir werden die Zahlenmengen erst in auto detailliert einführen und starten hier zunächst mit dem allgemeinen Mengenbegriff.

Unter einer Menge verstehen wir jede Zusammenfassung \(M\) von bestimmten wohlunterscheidbaren Objekten \(m\) unserer Anschauung oder unseres Denkens, welche Elemente von \(M\) genannt werden. Wir schreiben auch \(\ m \in M\). Für ein Objekt \(n\), das nicht in der Menge enthalten ist schreiben wir \(\ n \notin M\)

Die Menge, die keine Elemente enthält, bezeichnen wir als die leere Menge und verwenden das Symbol \(\varnothing\)

Die obige Definition der Menge ist sehr allgemein gefasst und somit können wir z.B. die Menge der Wochentage \(W\), oder der Farben der Olympiaringe \(O\) genauso angeben wie die Menge der Ziffern im Dezimalsystem \(Z\):

\[\begin{align*} W &= \set{\text{Montag}, \text{Dienstag}, \text{Mittwoch}, \text{Donnerstag}, \text{Freitag}, \text{Samstag}, \text{Sonntag}}\\ O &= \set{\text{blau}, \text{gelb}, \text{schwarz}, \text{grün}, \text{rot}}\\ Z &= \set{0,1,2,3,4,5,6,7,8,9} \end{align*} \]

Dabei ist die hier gewählte Reihenfolge willkürlich und unerheblich für unsere Definition der Menge, wir hätten also genauso gut schreiben können:

\[ O = \set{\text{gelb}, \text{blau}, \text{rot}, \text{grün}, \text{schwarz}} \]

Wir werden im Laufe der Veranstaltung fast immer mit Mengen arbeiten, die aus Zahlen bestehen. Dabei ist es oft hilfreich, die Menge nicht über die Aufzählung ihrer Elemente anzugeben, sondern mit einer Aussage, die für alle Elemente der Menge wahr ist.

Wir können also die Menge \(M\) der Buchstaben im Wort “Mathe” entweder angeben als:

\[ M = \set{ \text{M},\text{a},\text{t},\text{h},\text{e}},\]

oder mit der folgenden Aussage über ihre Elemente:

\[ M = \set{ m \with m \text{ ist ein Buchstabe des Worts 'Mathe'}}.\]

Nun können wir Aussagen mit Mengen kombinieren, indem wir eine (oder mehrere) Variable(n) in der Aussage vorkommen lassen.

Wie bezeichnen eine Aussage, welche von einer freien Variable \(n\) abhängt, mit \(A(n)\).

Einige Beispiele für Aussagen mit freier Variable:

Wir erkennen an den obigen Beispielen, dass für eine eindeutige Zuweisung von wahr oder falsch noch angegeben werden muss, aus welcher Menge die Variable \(n\) stammt. Deswegen heißt es in der letzten Definition auch “freie Variable”, weil diese bisher noch zu gar keiner Menge gehört. Die Mengenangabe wird sehr häufig von einem sogenannten Quantor begleitet:

Sei \(A(n)\) eine Aussage mit freier Variable \(n\) und \(M\) eine Menge. Wir definieren die folgenden zwei Quantoren:

Wir betrachten wieder die Menge der Wochentagsnamen \(W\) vom vorletzten Beispiel. Beispiele für Aussagen sind:

\[ \exists\,w \in W\ : \ w \text{ endet auf 'tag'}\]

Gesprochen: Es existiert ein \(w\) in der Menge \(W\), für das gilt: \(w\) endet auf “tag” (wahr).

\[ \forall\,w \in W\ : \ w \text{ endet auf 'tag'}\]

Gesprochen: Für alle \(w\) in der Menge \(W\) gilt: \(w\) endet auf “tag” (falsch).

Weitere Beispiele

Nun ein paar mathematischere Beispiele. Hierbei greifen wir schon etwas auf die Zahlenmengen vor.

  1. Für alle natürlichen Zahlen gilt: \(2^n > n^2 - 1\) \[\forall n \in \N \,:\, 2^n \geq n^2 - 1\]

  2. Für zwei reelle Zahlen gilt die erste binomische Formel \[\forall a,b \in \R \,:\, (a + b)^2 = a^2 + 2ab + b^2\]

  3. Die Gleichung \(x^2 - 4x + 4 = 0\) hat eine reelle Lösung \[\exists x \in \R \,:\, x^2 - 4x + 4 = 0\]

Man kann ebenfalls mehrere Quantoren in einer Aussage verwenden. In 2. müsste man genau genommen auch \(\forall a \in \R, \forall b \in \R\) schreiben, aber man kürzt das meist wie in 2. ab. Bei einer Kombination von \(\forall\) und \(\exists\) spielt außerdem die Reihenfolge eine Entscheidende Rolle:

Betrachten wir dazu folgende zwei Aussagen

  1. \(\forall m \in \N\,\, \exists n \in \N \,:\, n > m\)
  2. \(\exists m \in \N\,\, \forall n \in \N \,:\, n > m\)

Überlegen Sie erst einmal ohne weiter zu lesen, was die Aussagen jeweils bedeuten. Die erste Aussage sagt, dass wir für alle natürlichen Zahlen jeweils eine zweite Natürliche Zahle finden, die größer ist. Das ist einfach, wir können einfach immer den Nachfolger (\(m + 1\)) der ersten Zahl nehmen. Die zweite Aussage dagegen sagt, dass ein Element der ersten Menge existiert, für das alle Elemente der zweiten Menge größer sind. Im ersten Fall können wir für jedes \(m\) wieder ein neues \(n\) bestimmen im zweiten Fall muss die Aussage aber für ein \(m\) und alle \(n\) gelten. Da es eine kleinste natürliche Zahl gibt (\(1\)), kann die zweite Aussage für \(n = 1\) und damit insgesamt nicht gelten.

Ab sofort werden wir in allen Definitionen auch immer wieder mit Mengen verknüpfte Aussagen sehen, sodass Sie sich schnell an die Schreibweise gewöhnen werden. Als nächstes definieren wir, wie wir zwei Mengen vergleichen können.

Seien \(A\) und \(B\) Mengen, dann gilt

Wir haben hier die echte Teilmenge definiert, indem wir die Definitionen von Gleichheit und Teilmenge kombiniert haben. Es wird noch häufiger vorkommen, dass wir aus vorherigen Definitionen wieder neue Definitionen ableiten. Sie können zur Übung einmal versuchen die Gleichheit über die Teilmenge zu definieren.

Wir haben hier auf eine Schreibweise mit Quantoren zurückgegriffen, um Sie daran zu gewöhnen. Allerdings werden Sie in vielen Lehrbüchern eher eine Definition über Implikation und Äquivalenzpfeile finden, wobei man man den \(\forall\)-Quantor häufig weglässt. Sie können sich leicht selbst davon überzeugen, dass folgende Definitionen äquivalent zur obigen Definition sind:

Wir können Mengen auch kombinieren und damit neue Mengen erhalten:

Seien \(A\) und \(B\) Mengen. Dann sind die folgenden Mengenverknüpfungen definiert:

Der Vereinigungs- und Schnittoperator kann auch auf mehr als zwei Mengen verallgemeinert werden. Sei \(\,\mathcal{N}\) eine Menge von Mengen, dann definieren wir

Definieren wir darüber hinaus eine Menge \(U\) (für Universum), als Vereinigung aller Mengen, können wir außerdem das Komplement definieren:

Sei \(M_1 = \set{1,3,5,7}\), \(M_2 = \set{1,2,3}\), \(M_3 = \set{2,4}\), \(\,\mathcal{N} = \set{M_1,M_2,M_3}\)

Dann gilt

\(\begin{align*} \qquad\qquad M_1 \cup M_2 &= \set{1,2,3,5,7}\\[1mm] M_1 \cap M_2 &= \set{1,3}\\[1mm] M_1 \setminus M_2 &= \set{5,7}\\[1mm] M_1 \cap M_3 &= \varnothing\\[1mm] M_1 \cap \N &= M_1\\[1mm] M_2 \times M_3 &= \set{(1,2),(1,4),(2,2),(2,4),(3,2),(3,4)}\\[1mm] \bigcup\limits_{M \in \mathcal{N}} M &= \set{1,2,3,4,5,7} \end{align*}\)

Die Mengenverknüpfungen lassen sich auch gut in sogenannten Venn-Diagrammen darstellen. Die Venn-Diagramme der Basisverknüpfungen sind in folgender Abbildung gezeigt.

../images/venn_filled.svg

Vermutlich ist Ihnen bereits aufgefallen, dass die Mengenverknüpfungen sehr ähnlich sind zu den Aussagenverknüpfungen aus auto. Tatsächlich können Venn-Diagramme ebenfalls dabei helfen, Verknüpfungen von Aussagen graphisch darzustellen. Verknüpft man beispielsweise drei Aussagen \(A, B, C\) und stellt sich als Beispielaussagen \(m \in M_A\) (für \(A\)), \(m \in M_B\) (für \(B\)), \(m \in M_C\) (für \(C\)) vor, dann ist eine Aussagenverknüpfung wie \(A \and (B \or C)\) äquivalent zu \(m \in M_A \cap (M_B \cup M_C)\) und kann über ein Venn-Diagramm veranschaulicht werden. Versuchen Sie sich als Übung zu überlegen, wie die Venn-Diagramme der Aussagenverknüpfungen aus auto aussehen oder verdeutlichen Sie sich die Äquivalenzen aus auto mithilfe eines Venn-Diagramms. Zum Experimentieren mit Venn-Diagrammen, können Sie die folgende Demo benutzen:

Demo: Venn-Diagramme

Unten in grün wird eine Mengenverknüpfung angezeigt. Versuchen Sie durch Klicken der Zahlen im Venn-Diagramm die richtigen Flächen einzufärben. Wenn Sie glauben, die richtige Kombination eingestellt zu haben, wählen Sie “Prüfen”. Mit “Neu” bekommen Sie eine neue Mengenverknüpfung vorgegeben.

Basiert auf Demo von Steve Phelps

Beweistechniken

Den Nachweis der Richtigkeit einer Aussage auf Basis bekannter wahrer Aussagen nennt man Beweis. Bisher haben wir nur Beweise durch Wahrheitstafeln kennen gelernt. Diese Beweismethode wird allerdings nur in der grundlegenden Aussagenlogik verwendet. In diesem Kapitel stellen wir die gängisten Beweismethoden vor, welche wir in der gesamten Vorlesung immer wieder verwenden werden.

Wichtige neue Aussagen oder Gruppen von Aussagen nennen wir Sätze. In der Regel werden am Anfang eines Satzes eine Reihe von Voraussetzungen genannt, und anschließend eine Aussage getätigt, die unter diesen Voraussetzungen wahr sein soll. Der Beweis versucht nun, die Satzaussage auf wahr abzubilden. Zur Verfügung stehen dafür die Annahmen des Satzes und die sogenannten Axiome. Axiome sind Grundsätze, die man als wahr akzeptiert und damit keinen Beweis benötigen. In der Mathematik versucht man, mit möglichst wenigen dieser Axiome auszukommen. Wenn bereits andere Sätze bewiesen wurden, können auch diese bei der Beweisführung verwendet werden.

Am Ende des Beweises gönnt sich der Mathematiker ein kleines Quadrat (siehe rechts unten), um seine Freude über den gelungenen Beweis auszudrücken. Alternativ liest man auch öfter q.e.d. (quod erat demonstrandum) von Mathematikern, die mit ihren Lateinkenntnissen angeben wollen oder auch wzbw/wzzw (was zu beweisen/zeigen war).

Beispiele für die einzelnen Beweise werden erst im nächsten Kapitel folgen, da wir bisher noch nicht unsere Axiome eingeführt haben. Zusätzlich gibt es noch unseren kleinen Exkurs Beweistechniken. Hier haben wir separat für jede Kategorie einfache Beweise geführt, bei denen die natürlichen Zahlen als bekannt vorausgesetzt werden.

Direkter Beweis

Der Direkte Beweis ist vermutlich die am häufigsten eingesetzte Beweismethode. Hierbei nutzt man Implikationen, um von den Voraussetzungen des Satzes über die Axiome und bereits bewiesene Sätze auf die Behauptung des Satzes zu schließen. Dabei werden häufig mehrere Implikationen aneinandergereiht.

Dies ist zulässig, da für drei Aussagen \(A\), \(B\), \(C\) gilt:

\[\left((A \Rightarrow B) \and (B \Rightarrow C)\right) \quad \Leftrightarrow \quad (A \Rightarrow C),\]

wovon man sich leicht mit einer Wahrheitstafel überzeugen kann. Das heißt, eine Kette von Implikationen ist gleichbedeutend damit, dass aus der ersten Aussage, die letzte folgt.

Häufig sollen nicht nur Implikationen (\(\Rightarrow\)) sondern Äquivalenzen (\(\Leftrightarrow\)) gezeigt werden. Dafür verwendet man entweder analog zur Implikationskette eine Äquivalenzkette, also eine Reihe äquivalenter Aussagen, die von den Voraussetzungen des Satzes bis zur Behauptung des Satzes führt. Alternativ führt man zwei separate Beweise mit jeweils einer Implikation, denn es gilt:

\[(A \Leftrightarrow B) \quad \Leftrightarrow \quad \left((A \Rightarrow B) \and (B \Rightarrow A)\right).\]

Eine Äquivalenz ist also gleichbedeutend mit zwei Implikationen, einmal von “links nach recht” und einmal von “rechts nach links”. Wir leiten die beiden Fälle dann auch oft mit ‘\(\Rightarrow\) Richtung’ und ‘\(\Leftarrow\) Richtung’ ein.

Indirekter Beweis - Kontraposition

Der Indirekte Beweis, oder der Beweis der Kontraposition ist eine Sonderform des direkten Beweises. Dabei wird folgende Äquivalenz ausgenutzt:

\[(A \Rightarrow B)\quad \Leftrightarrow\quad (\neg B \Rightarrow \neg A)\]

Ein kleines Beispiel:

Manchmal ist es einfacher die Kontraposition zu beweisen als die ursprüngliche Richtung der Implikation. Daher lohnt es sich, auch die Kontrapositon eines Satzes zu formulieren und dann zu überlegen, welcher Beweis einfacher zu führen ist. Andersherum ist es oft ratsam, sich zu einer bewiesenen Implikation auch noch die Kontraposition zu formulieren, da man dadurch häufig eine andere Sichtweise auf den Satz bekommt.

Widerspruchsbeweis

Sollen wir für einen Satz eine Aussage \(A\) beweisen, nehmen wir für den sogenannten Widerspruchsbeweis (oder auch reductio ad absurdum) an, dass \(A\) nicht gilt, Davon ausgehend versuchen wir auf eine andere Aussage \(C\) zu schließen, von der wir wissen, dass sie falsch ist. Damit kann unsere ursprüngliche Annahme, dass \(A\) nicht gilt, nicht richtig sein und somit folgt, dass \(A\) wahr sein muss. Der Widerspruch wird gerne mit einem Blitzsymbol (↯) markiert

Die aussagenlogische Grundlage für einen Widerspruchsbeweis ist ein wenig komplizierter, aber wir gehen es schrittweise noch einmal durch: Wir nehmen an, dass \(A\) nicht gilt, also \(\neg A\) wahr ist. Daraus folgern wir eine Aussage \(C\) (\(\neg A \Rightarrow C\)), von der wir wissen, dass sie falsch ist, also \(\neg C\) wahr (\((\neg A \Rightarrow C) \and \neg C\)). Daraus folgt \(A\), also insgesamt

\[\left((\neg A \Rightarrow C) \and \neg C\right) \quad\Rightarrow\quad A\]

Überzeugen Sie sich gerne mit einer Wahrheitstafel von der Richtigkeit dieser Aussage.

Ein Beispiel aus dem Alltag wäre:

Vollständige Induktion

Die letzte Beweismethode ist die sogenannte vollständige Induktion. Diese ist besonders gut dazu geeignet, eine Aussage \(A(n)\) zu beweisen, die für alle natürlichen Zahlen \(n\) gelten sollen. Wir können unmöglich die Aussage für jede Zahl ausprobieren, da es unendlich viele natürliche Zahlen gibt. Hier kommt die vollständige Induktion ins Spiel, diese erfolgt immer in den folgenden 3 Schritten:

  1. Induktionsanfang: Wir beweisen \(A(n = 1)\).
  2. Induktionsvoraussetzung: Wir nehmen an, \(A(n)\) gelte für ein \(n \in \N\)
  3. Induktionsschritt: Wir beweisen die Implikation: \(A(n) \Rightarrow A(n + 1)\)

Wenn uns das gelingt, gilt die Aussage für alle \(n \in \N\), denn wir haben gezeigt, dass sie für \(n = 1\) gilt, daraus folgt, dass sie für \(n = 2\) gilt, daraus folgt dass sie für \(n = 3\) gilt, usw…

Oft vergleicht man die vollständige Induktion mit dem Versuch eine Leiter zu besteigen, von der man nicht weiß, wie hoch sie ist. Wenn man aber sicher weiß, dass man auf die erste Sprosse kommt (Induktionsanfang) und von egal welcher Sprosse ausgehend (Induktionsvoraussetzung) immer weiß, wie man die jeweils nächste erreicht (Induktionsschritt), dann kann man die komplette Leiter erklimmen.

Es gibt verschiedene Varianten der vollständigen Induktion. So muss man zum einen nicht bei \(n = 1\) starten. Manche Aussagen gelten nur für alle \(n \geq n_0\). Man kann eine Aussage auch für alle ganzen Zahlen beweisen, indem man bei \(n = 0\) startet und dann sowohl in negative als auch in positive Richtung eine vollständige Induktion führt.

Zahlenmengen

Historie der Zahlen

Für einen etwas sanfteren Einstieg in das Thema wird in der Vorlesung zunächst die historische Entwicklung der Zahlen betrachtet. Ähnlich wie es auch in der Schule eingeführt wird, beginnt diese Entwicklung mit den natürlichen Zahlen und erst danach wurden nach und nach auch rationale, reelle und schließlich komplexe Zahlen von der Menschheit akzeptiert. Jeder Schritt war mit viel Widerstand verbunden, da Menschen sich bekanntermaßen nur äußerst ungern an Neues gewöhnen wollen. Da das Thema deutlich besser in Video- als in Schriftform konsumierbar ist, verweisen wir an diese Stelle auf die entsprechende Vorlesungsaufzeichnung.

Axiomatische Einführung der reellen Zahlen

Wir werden nun die Axiome einführen, welche die Basis für alle weiteren Sätze in dieser Vorlesung bilden. Ein Axiom ist ein Grundsatz, den man ohne Beweis als wahr anerkennt. Dabei versucht man in der Mathematik, so wenig Axiome wie mögliche zu verwenden und dagegen so viel wie möglich daraus abzuleiten, ohne weitere Axiome zu benötigen. Oft wird in der Schule größtenteils axiomatisch gearbeitet (ohne dieses Wort dafür zu verwenden): man lernt “Rechenregeln”, die man immer wieder anwendet und von denen man irgendwann “glaubt”, dass sie wahr sind. Im Studium dagegen versuchen wir, diesen Ansatz weitestgehend zu vermeiden und den überwiegenden Teil des Regelwerks, das wir uns über die Jahre erarbeiten, auch zu beweisen. Sie dürfen sich in dieser Veranstaltung also gerne eine Grundskepsis angewöhnen und immer wieder hinterfragen:

Da auch fast alle folgenden Veranstaltungen im Studium immer wieder Beweise für sehr abstrakte Konzepte durchführen werden, ist ein Ziel dieser Veranstaltung, Sie darauf entsprechend vorzubereiten.

Die Definition der reellen Zahlen \(\R\) basiert auf drei Axiomklassen. Diese Axiomklassen kann man stark vereinfacht wie folgt auflisten:

  1. Grundregeln der Addition und Multiplikation (Körperaxiome)
  2. Grundregeln zum Größenvergleich zweier Zahlen (Ordnungsaxiome)
  3. Jeder ‘Nachbar’ einer reellen Zahl ist wieder eine reelle Zahl (Vollständigkeitsaxiom)

Wir werden in diesem Kapitel die Axiome in dieser Reihenfolge einzeln durchgehen. Im nächsten Kapitel werden wir dann Folgerungen aus den Axiomen ableiten. Im Wesentlichen sind diese Folgerungen all die “Rechenregeln”, die Sie bereits aus der Schule kennen, nur werden wir diese hier beweisen, indem wir sie auf die Axiome zurückführen.

Beginnen wir also mit der Definition eines sogenannten Körpers.

Ein Körper ist eine Menge \(K\), auf der zwei Verknüpfungen, die wir Addition (\(+\)) und Multiplikation (\(\cdot\)) nennen, definiert sind und für die folgende Eigenschaften erfüllt sind:

Eigenschaften der Addition:

\[ \begin{flalign*} \quad(\text{K1})& &\forall a,b,c \in K &:\; a + (b + c) = (a + b) + c && \text{(Assoziativität $+$)}\\[1mm] \quad(\text{K2})& &\forall a,b \in K &:\; a + b = b + a && \text{(Kommutativität $+$)}\\[1mm] \quad(\text{K3})& &\exists 0 \in K \; \forall a \in K &:\; a + 0 = a && \text{(neutrales Element $+$)}\\[1mm] \quad(\text{K4})& &\forall a \in K \; \exists (-a) \in K &:\; (-a) + a = 0 && \text{(inverses Element $+$)} \end{flalign*} \] Das neutrale Element der Addition nennen wir auch Nullelement und das inverse Element der Addition negatives Element.

Eigenschaften der Multiplikation:

\[ \begin{flalign*} \quad(\text{K5})& &\forall a,b,c \in K &:\; a \cdot (b \cdot c) = (a \cdot b) \cdot c && \text{(Assoziativität $\cdot$)}\\[1mm] \quad(\text{K6})& &\forall a,b \in K &:\; a \cdot b = b \cdot a && \text{(Kommutativität $\cdot$)}\\[1mm] \quad(\text{K7})& &\exists 1 \in K\setminus\set{0} \; \forall a \in K\setminus\set{0} &:\; a \cdot 1 = a && \text{(neutrales Element $\cdot$)}\\[1mm] \quad(\text{K8})& &\forall a \in K\setminus\set{0} \; \exists a^{-1} \in K &:\; a^{-1} \cdot a = 1 && \text{(inverses Element $\cdot$)} \end{flalign*} \] Das neutrale Element der Multiplikation nennen wir auch Einselement und das inverse Element der Multiplikation kurz inverses Element.

Kombination von Addition und Multiplikation:

\[ \begin{flalign*} \quad(\text{K9})& &\forall a,b,c \in K &:\; a \cdot (b + c) = a \cdot b + a \cdot c & \\[1mm] & &\forall a,b,c \in K &:\; (a + b) \cdot c = a \cdot c + b \cdot c & \text{(Distributivgesetze)} \end{flalign*} \]

Achtung: Dies ist bisher nur eine gewöhnliche Definition und noch kein Axiom. Dieses folgt erst jetzt:

Axiom 1

Die reellen Zahlen mit der üblichen Addition (\(+\)) und Multiplikation (\(\cdot\)) bilden einen Körper.

Da wir dies zum Axiom erhoben haben, müssen wir hier nichts beweisen oder die Definition nachprüfen. Das Axiom nehmen wir einfach für die Zukunft als wahr an. Es bildet damit einen der drei Steine des Fundaments der Analysis.

Es gibt verschiedene Körper in der Mathematik. Beispielsweise sind auch die rationalen Zahlen mit der üblichen Addition und Multiplikation ein Körper. Und auch die komplexen Zahlen, die wir später einführen werden, sind ein Körper. Die Operationen \(+\) und \(\cdot\) müssen auch nicht die übliche Addition und Multiplikation sein. Wichtig ist lediglich, dass die Eigenschaften K1 bis K9 erfüllt sind. Zur Vereinfachung treffen wir für die Zukunft noch die Vereinbarung, dass wir statt \(a \cdot b\) auch kurz \(ab\) schreiben. Darüber hinaus vereinbaren wir, dass “Punkt vor Strich” gilt, wodurch wir z.B. kurz \(a + bc\) schreiben können statt \(a + (bc)\).

Nach der Definition muss ein Körper ein Nullelement (neutrales Element der Addition) und ein Einselement (neutrales Element der Multiplikation) enthalten. Wir werden später noch zeigen, dass diese in keinem Körper identisch sind. Man kann aber einen Körper aus nur diesen zwei Elementen bauen, indem man die Addition definiert als \[ \begin{align*} 0 + 0 &= 0\\ 0 + 1 &= 1\\ 1 + 0 &= 1\\ 1 + 1 &= 0 \end{align*} \] und die Multiplikation als \[ \begin{align*} 0 \cdot 0 &= 0\\ 0 \cdot 1 &= 0\\ 1 \cdot 0 &= 0\\ 1 \cdot 1 &= 1 \end{align*} \]

Die Körpereigenschaften K1–K9 lassen sich hier sehr schnell zeigen, also ist \((\set{0,1},+,\cdot)\) ein Körper.

Als nächstes brauchen wir auf dem Körper der reellen Zahlen eine Ordnung, also eine Möglichkeit, verschiedene reelle Zahlen miteinander zu vergleichen. Dafür dient die nächste Definition.

Ein Körper \((K, +, \cdot)\), in dem eine Teilmenge \(P\) — genannt die “positiven Zahlen” — mit den folgenden Eigenschaften existiert, nennt man einen (an)geordneten Körper.

\[ \begin{align*} (\text{O1}) &\quad \forall\, a \in K \text{ gilt genau eine der drei Beziehungen } (a \in P), (a = 0), (-a \in P)\\[2mm] (\text{O2}) &\quad \forall\, a,b \in P :\, a + b\, \in P\\[2mm] (\text{O3}) &\quad \forall\, a,b \in P :\, ab\, \in P\\ \end{align*} \]

Warum diese Definition einen Vergleich möglich macht, sehen wir an der folgenden, darauf aufbauenden Definition.

Wir definieren für einen geordneten Körper \(K\) und zwei beliebige Elemente \(a, b \in K\) die folgenden Vergleichsoperatoren: \[ \begin{align*} a < b \;&\mathrel{:\Leftrightarrow}\; (b - a) \in P\\ a > b \;&\mathrel{:\Leftrightarrow}\; b < a\\ a \leq b \;&\mathrel{:\Leftrightarrow}\; (a < b)\or a = b\\ a \geq b \;&\mathrel{:\Leftrightarrow}\; b \leq a \end{align*} \]

Sobald wir also Zahlen als positiv oder nicht-positiv identifizieren können, sind die üblichen Größenvergleiche zwischen beliebigen Zahlen möglich. Um die Welt der Größenvergleiche für die reellen Zahlen zu eröffnen, erheben wir Folgendes zum Axiom:

Axiom 2

Der Körper der reellen Zahlen \((\R,+,\cdot)\) ist ein geordneter Körper.

Sobald ein Vergleich von Zahlen möglich ist, können wir auch das Maximum und das Minimum einer Menge bestimmen, also das größte oder kleinste Element. Die nächste Definition bietet sich hier also gut an:

Sei \((K,+,\cdot)\) ein geordneter Körper und \(M \subseteq K\) eine Teilmenge des Körpers. Dann nennen wir ein Element \(m \in M\)

Hier schließt sich die Frage an, ob jede Menge ein Maximum/Minimum hat. Die reellen Zahlen selbst sind dafür direkt ein Gegenbeispiel, da man für jede reelle Zahl immer noch eine größere und kleinere reelle Zahl finden kann. Bei Mengen mit endlich vielen Elementen, wie zum Beispiel \(M_1 = \set{1,2,3}\), ist es dagegen recht einfach, ein Minimum und ein Maximum zu finden. Aber auch unendliche Mengen, wie zum Beispiel die Menge \(M_2 = \set{m \in \R \with m \leq 2 \and m \geq 1}\), können ein klares Minimum und Maximum haben.

Betrachten wir nun die Menge \[ M_3 = \set{ \frac{n}{n + 1} \With \forall n \in \N } = \set{\frac{1}{2}, \frac{2}{3}, \frac{4}{5}, \frac{5}{6}, \frac{6}{7}, \frac{7}{8},\ldots}. \] Hier lässt sich recht einfach das Minimum \(1/2\) bestimmen. Aber obwohl klar ist, dass jedes Element kleiner als Eins ist, da der Nenner des Bruchs kleiner ist als der Zähler, ist \(\mathrm{max}(M_3) \neq 1\), denn \(1\) ist kein Element von \(M_3\), und die Definition des Maximums fordert, dass das Maximum ein Element der Menge sein muss. Für solche Fälle, in denen wir ein “Maximum außerhalb der Menge” angeben können, ist die nächste Definition gedacht.

Sei \((K,+,\cdot)\) ein geordneter Körper und \(M \subseteq K\) eine Teilmenge des Körpers. Dann nennen wir ein Element \(m \in K\)

Existiert für \(M\) eine obere und eine untere Schranke, sagen wir: \(M\) ist beschränkt.

Machen Sie sich den Unterschied zwischen den Definitionen auto-no und auto-no bewusst: Eine obere/untere Schranke muss kein Element der Menge sein, ein Minimum/Maximum schon. Für die Menge \(M_3\) von oben wäre \(m = 1\) eine obere Schranke, aber kein Maximum. Allerdings wäre auch \(m = 2\), oder allgemein jedes \(m \geq 1\) eine obere Schranke. Um diese Mehrdeutigkeit zu beseitigen, brauchen wir noch eine weitere Definition.

Sei \((K,+,\cdot)\) ein geordneter Körper und \(M \subseteq K\) eine Teilmenge des Körpers. Dann nennen wir ein Element \(m \in K\)

Hiermit wäre also \(\mathrm{sup}(M_3) = 1\). Achtung, selbst wenn dies (wie hier) offensichtlich ist, muss eine solche Behauptung bewiesen werden. Da wir allerdings erst im nächsten Kapitel die wichtigsten Rechenregeln kennen lernen werden, lassen wir den Beweis hier ausnahmsweise aus. Führen Sie den Beweis aber gerne als Übung durch. Wir werden in den nächsten Kapiteln noch häufig mit beschränkten Mengen arbeiten, da diese viele nützliche Eigenschaften haben. Machen Sie sich bewusst, dass die letzten vier Definitionen alle auf der Definition des geordneten Körpers aufbauen.

Nun sind wir fast fertig mit der axiomatischen Einführung der reellen Zahlen. Den Großteil der Gesetze, die in der Schule benutzt werden, kann man aus den bisherigen Axiomen ableiten. Dies werden wir in auto auch ausführlich tun. Es gibt nur noch ein Problem: Sowohl die Körperaxiome als auch die Ordnungsaxiome gelten auch für die rationalen Zahlen. Zur Zeit unterscheiden sich unsere reellen Zahlen also noch nicht von den rationalen Zahlen. Aber warum sind wir mit den rationalen Zahlen nicht einfach zufrieden? Die Antwort ist, dass wir die reellen Zahlen so definieren wollen, dass sie alle Zahlen enthalten, die wir auf einem Zahlenstrahl angeben/konstruieren können. Es soll also keine “Lücken” geben. Sie wissen aber vielleicht bereits aus der Schule, dass auch sogenannte irrationale (nicht-rationale) Zahlen existieren. Das prominenteste Beispiel ist \(\sqrt{2}\), für das wir später noch beweisen werden, dass es nicht rational sein kann, also nicht als Bruch aus ganzen Zahlen darstellbar ist. Allerdings konnten bereits die alten Griechen eine Strecke konstruieren, deren Länge \(x^2 = 2\) erfüllt. Bei den Bruchzahlen \(\Q\) gibt es also noch “Lücken” auf der Zahlengerade, daher fehlt uns noch eine Eigenschaft der reellen Zahlen, um diese Lücken zu schließen.

Wir könnten jetzt einfach etwas fordern wie “\(\R\) hat keine Lücken auf der Zahlengerade”. Auch wenn das zunächst plausibel klingen mag, fehlt uns hier eine klare Definition der “Lücken” und der “Zahlengerade” und das, ohne dafür die reellen Zahlen zu nutzen. Genauso können wir auch nicht fordern, dass die reellen Zahlen die Lösung der Gleichung \(x^2 = 2\) beinhalten sollen. Dann wären zwar die reellen und rationalen Zahlen unterschiedlich definiert, aber wir hätten damit noch lange nicht alle “Lücken” geschlossen. Wir suchen also eine möglichst Grundlegende Eigenschaft der reellen Zahlen, welche die rationalen Zahlen nicht erfüllen.

../images/wurzel-2.svg

Genau darum geht es im letzten Axiom, dem sogenannten Vollständigkeitsaxiom. Genau genommen gibt es nicht das Vollständigkeitsaxiom, denn im Gegensatz zu den ersten beiden Axiomen, die in fast jedem Lehrbuch bis auf kleine Abwandlungen identisch sind, gibt es für die Vollständigkeit der reellen Zahlen sehr unterschiedliche Axiome, die sich allerdings alle jeweils auseinander herleiten lassen. Man wählt also ein Vollständigkeitsaxiom und die übrigen werden zu normalen Sätzen, die sich mithilfe des gewählten Axioms beweisen lassen. Geben wir also zunächst unsere Definition der Vollständigkeit an:

Wir nennen einen geordneten Körper \((K, +, \cdot)\) vollständig, wenn für jede nach oben beschränkte Teilmenge \(M \subseteq K\) gilt \[\mathrm{sup}(M) \in K.\]

Axiom 3

Der Körper der reellen Zahlen \((\R, +, \cdot)\) ist vollständig.

Zunächst einmal fällt auf, dass dieses Axiom im Vergleich zu unseren eigenen Versuchen weiter oben mit unseren bisherigen Definitionen sehr klar formuliert ist. Wir könnten hier übrigens auch genauso gut das Infimum anstelle des Supremums verwenden.

Doch was sagt es aus? Die Aussage des Axioms ist uninteressant für Teilmengen, bei denen das Supremum ein Element der Teilmenge selbst ist (also das Maximum der Menge). Denn wenn das Element innerhalb einer Teilmenge von \(\R\) liegt, liegt es natürlich auch in \(\R\) selbst und Selbiges würde auch gelten, wenn wir \(\R\) durch \(\Q\) ersetzen. Interessanter sind Teilmengen, bei denen das Supremum nicht in der Menge liegt, wie zum Beispiel unsere zuvor definierte Menge \(M_3\), bei denen Elemente der Menge beliebig nah an das Supremum herankommen, es aber nie ganz erreichen. Unser Axiom besagt, dass auch solche Suprema, die kein Element der Teilmenge sind, in \(\R\) enthalten sein sollen. Oder anders formuliert: Wenn wir uns einer Zahl \(x\) durch andere Elemente aus \(\R\) beliebig dicht nähern können, dann soll auch \(x \in \R\) sein. Deswegen nennt man Körper mit dieser Eigenschaft vollständig, weil damit keine “benachbarten” Elemente des Körpers existieren können, die nicht auch zum Körper gehören.

Aber warum gilt das Axiom nicht auch für die rationalen Zahlen \(\Q\)? Um dies zu beweisen, müssen wir eine Teilmenge von \(\Q\) finden, deren Supremum eine Zahl ist, die nicht in \(\Q\) liegt. Diesen Beweis werden wir im folgenden auto führen. Machen Sie sich an dieser Stelle keine Sorgen, wenn Ihnen die Vollständigkeit der reellen Zahlen nicht ganz einleuchtend erscheint. Wir werden im Laufe der Vorlesung noch häufig darauf zurückkommen und viele Beispiele sehen.

Über diese drei Axiome besitzen die reellen Zahlen nun alle Eigenschaften, die wir in der Analysis benötigen. Alle nun folgenden Aussagen in dieser Vorlesung lassen sich aus diesen Axiomen herleiten. Als Nächstes können wir uns also endlich an die ersten Beweise wagen, anstatt immer nur zu definieren. Zur Erinnung: in auto finden Sie eine Übersicht über die wichtigsten Beweismethoden.

Folgerungen aus den Axiomen

Wie bereits angekündigt, werden wir alle Regeln/Aussagen, die über die eben eingeführen Axiome hinausgehen, daraus ableiten. Die Axiome sind damit die einzigen Grundsätze, was wir glauben, den Rest wollen wir wissen. Es ist Ihnen vielleicht aufgefallen, dass wir bisher noch keine Subtraktion oder Division eingeführt haben, oder einfache Regeln, wie Kürzungsregeln (\(2/4 = 1/2\)), oder binomische Formeln.

Hierzu werden wir nun die ersten Beweise durchführen, bei denen wir, ausgehend von den Axiomen, diese Rechenregeln herleiten. Die Beweise sind hier noch nicht besonders anspruchsvoll, aber gerade weil uns vieles als “ist doch logisch” vorkommt, fallen gerade diese Beweise am Anfang oft schwer.

Folgerungen aus den Körpereigenschaften der Addition

Wir starten mit den ersten vier Körpereigenschaften, die sich nur mit der Addition beschäftigen. Zur Wiederholung geben wir sie hier erneut an

\[ \begin{flalign*} \quad(\text{K1})& &\forall a,b,c \in K :\; a + (b + c) = (a + b) + c && \text{(Assoziativität $+$)}\\[1mm] \quad(\text{K2})& &\forall a,b \in K :\; a + b = b + a && \text{(Kommutativität $+$)}\\[1mm] \quad(\text{K3})& &\exists 0 \in K \; \forall a \in K\,:\, a + 0 = a && \text{(neutrales Element $+$)}\\[1mm] \quad(\text{K4})& &\forall a \in K \; \exists (-a) \in K\,:\, (-a) + a = 0 && \text{(inverses Element $+$)} \end{flalign*} \]

Fangen wir mit ein paar ganz simplen Folgerungen an:

Ist \(K\) ein Körper, dann gilt für alle \(a,b,c \in K\):

  1. \(0 + a = a\) und \(a + (-a) = 0\)
  2. Die Summe von \(a,b,c\) ist unabhängig von der Reihenfolge und wir schreiben daher einfach \(a + b + c\)
Beweis
  1. Folgt sofort aus (\(\KC\)) bzw (\(\KD\)), wenn man (\(\KB\)) anwendet.

  2. Wir führen den Beweis einmal am Beispiel \((b + a) + c = a + (b + c)\). Jede andere der 12 Vertauschungs- und Klammerungsvarianten funktioniert analog: \[(b + a) + c \stackrel{\KB}{=} (a + b) + c \stackrel{\KA}{=} a + (b + c)\]

auto(b) kann man ebenfalls für eine beliebige endliche Anzahl von Summanden zeigen, allerdings ist die Beweisführung immer eine Aneinaderreihung von \(\KA\) und \(\KB\) und daher nicht sonderlich spannend hier anzuführen. Für unendlich viele Summanden gilt die Regel übrigens nicht immer, wie wir in auto noch sehen werden.

Im nächsten Satz sehen wir zum ersten Mal einen Eindeutigkeitsbeweis, in diesem Fall die Eindeutigkeit des \(0\)-Elements und des \((-a)\)-Elements. Eindeutigkeitsbeweise sollen stets zeigen, dass es kein zweites Element mit der gleichen Eigenschaft geben kann. Ein Eindeutigkeitsbeweis ist kein Existenzbeweis, also nur weil wir beweisen, dass es höchstens ein Element mit dieser Eigenschaft gibt, heißt es noch nicht, dass es auch genau eins gibt. Daher führt man häufig sowohl einen Existenzbeweis als auch einen Eindeutigkeitsbeweis durch. Letzterer wird fast immer per Widerspruchsbeweis geführt. In diesem Fall ist die Existenz des Nullelements und des negativen Elements bereits über \(\KC\) bzw \(\KD\) gegeben, das heißt wir müssen nur noch die Eindeutigkeit zeigen.

Für einen Körper \(K\) gilt:

  1. Das neutrale Element der Addition (Nullelement) ist eindeutig
  2. Das inverse Element der Addition (negative Element) ist eindeutig.
  3. Für alle \(a \in K\) ist das negative Element des negativen Elements wieder \(a\), oder kurz: \(\quad\forall a \in K\,:\,-(-a) = a\)
Beweis
  1. Wir nehmen an, es gäbe ein zweites Element \(0' \neq 0 \in K\) für das gilt \(a + 0' = a\).
    Dann folgt aus \(a + 0 = a\) mit \(a = 0'\): \[0' + 0 = 0'\] und aus \(a + 0' = a\) mit \(a = 0\): \[0' + 0 = 0\] zusammen ergeben die beiden Gleichungen also \[0' = 0' + 0 \stackrel{\KB}{=} 0 + 0' = 0.\] Dies stellt einen Widerspruch zur Annahme \(0' \neq 0\) dar. (↯)
    Daher ist das Nullelement eindeutig.

  2. Wir nehmen an, es gäbe ein zweites Element \(a' \neq -a \in K\) für das gilt \(a + a' = 0\) (*).
    Dann folgt \[\begin{align*} -a &= -a + 0 & \text{($\KC$)}\\ &= -a + (a + a') & \text{(*)}\\ &= (-a + a) + a' & \text{($\KA$)}\\ &= 0 + a' & \text{($\KD$)}\\ &= a' & \mathtip{\text{(S.2.9(a))}}{0 + a = 0}.\\ \end{align*} \] Dies stellt einen Widerspruch zur Annahme \(a' \neq -a\) dar. (↯)
    Daher ist das negative Element \((-a)\) eindeutig.

  3. Es gilt nach \(\KD\) für (-a): \(\quad (-a) + (-(-a)) = 0\).
    Allerdings gilt auch nach \(\KD\) für a: \(\quad 0 = a + (-a) \stackrel{\KB}{=} (-a) + a\)
    Wegen der Eindeutigkeit des negativen Elements (b), kann es für \((-a)\) keine zwei verschiedenen negativen Elemente geben. Daher folgt: \(\quad (-(-a)) = a\).

Ihnen fällt vielleicht auf, wie akribisch wir jeden Schritt mit einem unserer Axiome oder den Satzannahmen begründen. Dies ist besonders an dieser Stelle sehr wichtig, da man sonst leicht vergisst, warum wir eine Regel anwenden dürfen und stattdessen schnell wieder in unseren “Schulregelglauben” verfallen. Später werden wir natürlich nicht mehr für jede Vertauschung von zwei Summanden auf \(\KB\) verweisen. Aber für Ihre ersten Übungen sollten Sie sich dieses akribische Vorgehen angewöhnen.

Wir schließen die Additionsregeln mit einem sehr wichtigen Satz, in dem wir beweisen, dass wir eine Gleichung mit einer Addition wie gewohnt umstellen dürfen:

In einem Körper \(K\) gilt für beliebige Elemente \(a,b,x \in K\):

  1. \(a + x = b \Leftrightarrow x = b + (-a)\)
  2. \(a = b \Leftrightarrow a + x = b + x\)
  3. Für die Summe \(a + b\) ist das negative Element \(-(a + b) = (-a) + (-b)\)
Beweis
  1. Hier muss eine Äquivalenz gezeigt werden, also führen wir den Beweis in zwei Richtungen:
    \(\Leftarrow\)-Richtung (Existenz) \(\quad a + x = b \Leftarrow x = b + (-a)\) :
    \[a + x \stackrel{\mathtip{\text{(Def.x)}}{x = b + (-a)}}{=} a + b + (-a) \stackrel{\KB}{=} a + (-a) + b \stackrel{\KD}{=} b.\]

    \(\Rightarrow\)-Richtung (Eindeutigkeit) \(\quad a + x = b \Rightarrow x = b + (-a)\):
    \[x \stackrel{\KC}{=} x + 0 \stackrel{\KD}{=} x + a + (-a) \stackrel{\KB}{=} a + x + (-a) \stackrel{\mathtip{\text{(Def.b)}}{b = x + a}}{=} b + (-a).\]

  2. Zum Beweis nutzen wir (a), um die rechte Seite nach \(a\) aufzulösen:
    \(a + x = b + x \Leftrightarrow a = b + x + (-x) \stackrel{\KD}{=} b\)

  3. Zum Einen ist \((-a) + (-b)\) eine Lösung der Gleichung \(a + b + x = 0\) nach \(2\times\)(a).
    Zum Anderen ist \(-(a + b)\) eine Lösung der Gleichung \(a + b + x = 0\) nach (\(\KD\)).
    Wegen der Eindeutigkeit der Lösung (a) muss gelten \(-(a + b) = (-a) + (-b)\).

Wir benutzen in Zukunft meist die Kurzschreibweise \(a + (-b) = a - b\), wodurch die Subtraktion als Addition einer negativen Zahl definiert ist.

Folgerungen aus den Körpereigenschaften der Multiplikation

Fahren wir fort mit den 4 Eigenschaften der Multiplikation:

\[ \begin{flalign*} \quad(\text{K5})& &\forall a,b,c \in K :\; a \cdot (b \cdot c) = (a \cdot b) \cdot c && \text{(Assoziativität $\cdot$)}\\[1mm] \quad(\text{K6})& &\forall a,b \in K :\; a \cdot b = b \cdot a && \text{(Kommutativität $\cdot$)}\\[1mm] \quad(\text{K7})& &\exists 1 \in K\setminus\set{0} \; \forall a \in K \setminus\set{0} :\; a \cdot 1 = a && \text{(neutrales Element $\cdot$)}\\[1mm] \quad(\text{K8})& &\forall a \in K\setminus\set{0} \; \exists a^{-1} \in K :\; a^{-1} \cdot a = 1 && \text{(inverses Element $\cdot$)} \end{flalign*} \]

Vergleichen wir diese mit K1 bis K4 fällt auf, dass die Additionseigenschaften sehr ähnlich sind zu K5 bis K8, es muss lediglich überall \(+\) durch \(\cdot\) ersetzt werden und das neutrale und inverse Element haben ein eigenes Symbol. Man nennt Mengen, die diese 4 Eigenschaften bezüglich einer Operation erfüllen, eine Gruppe. Wir hätten also auch den Körper definieren können, indem wir sagen, dass ein Körper (\(K, +, \cdot\)) die 4 Gruppeneigenschaften bezüglich (\(K, +\)) und (\(K\setminus\set{0}, \cdot\)) erfüllen muss. Dann hätte nur noch K9 gefehlt. Wir können also alle Folgerungen aus dem letzten Kapitel einfach auf die Multiplikation übertragen, ohne auch nur einen weiteren Beweis zu führen.

In einem Körper \(K\) gilt für beliebige Elemente \(a,b,c,x \in K\):

  1. \(1 \cdot a = a\) und für \(a \neq 0\) gilt \(a \cdot a^{-1} = 1\)
  2. Das Produkt von \(a,b,c\) ist unabhängig von der Reihenfolge und wir schreiben daher einfach \(a \cdot b \cdot c.\)
  3. Das neutrale Element der Multiplikation (Einselement) ist eindeutig
  4. Das inverse Element der Multiplikation (inverses Element) ist eindeutig.
  5. Das inverse Element des inversen Elements von \(a\) ist wieder \(a\), oder kurz \(\quad (a^{-1})^{-1}= a.\)
  6. \(\forall a \neq 0 \,:\, a \cdot x = b \Leftrightarrow x = b \cdot a^{-1}\)
  7. \(\forall x \neq 0 \,:\, a = b \Leftrightarrow a \cdot x = b \cdot x\)
  8. Für das Produkt \(a \cdot b \neq 0\) ist das inverse Element \((a \cdot b)^{-1} = a^{-1} \cdot b^{-1}.\)
Beweis

Ersetze in den letzten drei Sätzen jeweils:

  • \(+ \rightarrow \cdot\)
  • \(0 \rightarrow 1\)
  • \(-a \rightarrow a^{-1}\)

Wie bereits geschrieben, benutzen wir in Zukunft meist die Kurzschreibweise \(ab = a \cdot b\). Außerdem definieren wir die Division \(\frac{a}{b} := ab^{-1}\). Die typischen Bruchrechnungsregeln ergeben sich ebenfalls aus den Körpereigenschaften:

In einem Körper \(K\) gilt für beliebige Elemente \(a,c \in K\) und \(b,d,e \in K\setminus\set{0}\):

  1. \(\displaystyle \frac{a}{b} = \frac{c}{d} \quad \Leftrightarrow \quad ad = bc\)

  2. \(\displaystyle \frac{ae}{be} = \frac{a}{b}\)

  3. \(\displaystyle \frac{a}{b} \pm \frac{c}{d} = \frac{ad \pm bc}{bd}\)

  4. \(\displaystyle \frac{\frac{a}{b}}{\frac{e}{d}} = \frac{ad}{be}\)

Beweis
  1. Da \(b,d \neq 0\), ist nach (kleiner Vorgriff) auto(b) auch \(bd \neq 0\) und wir können mit \(bd\) multiplizieren:
    \(ab^{-1}bd = cd^{-1}bd\) nach Anwendung von \(\KF\) und \(\KH\) folgt die Behauptung.

  2. \[ \frac{a}{b} \stackrel{\KG}{=} \frac{a}{b} \cdot 1 \stackrel{\KH}{=} \frac{a}{b} \cdot e e^{-1} = ab^{-1} \cdot e e^{-1} \stackrel{\KF}{=} (ae)(b^{-1}e^{-1}) \stackrel{\texttip{\text{S.2.12(h)}}{$(ab)^{-1} = a^{-1}b^{-1}$}}{=} (ae)(be)^{-1} = \frac{ae}{be} \]

  3. Folgt nach Multiplikation mit \(bd\).

  4. Folgt nach Anwendung von auto(h).

Folgerungen aus den Distributivgesetzen

Es fehlt noch eine letzte Körpereigenschaft, bei der sowohl Addition als auch Multiplikation zum Einsatz kommen. Auch diese hier noch einmal zur Wiederholung:

\[ \begin{flalign*} \quad(\text{K9})& &\forall a,b,c \in K \,:&\quad a \cdot (b + c) = a \cdot b + a \cdot c & \\[1mm] & &\forall a,b,c \in K \,:&\quad (a + b) \cdot c = a \cdot c + b \cdot c & \text{(Distributivgesetze)} \end{flalign*} \]

Daraus können wir folgern

In einem Körper \(K\) gilt für beliebige Elemente \(a,b \in K\):

  1. \(0 \cdot a = a \cdot 0 = 0\)
  2. \(ab = 0 \quad \Leftrightarrow \quad (a = 0) \or (b = 0)\)
  3. \((-a)b = a(-b) = -(ab)\)
  4. \((-a)(-b) = ab\), insbesondere \((-1)(-1) = 1\)
Beweis
  1. \(a \cdot 0 \stackrel{\KC}{=} a(0 + 0) \stackrel{\KI}{=} a \cdot 0 + a \cdot 0\)
    also \(a \cdot 0 = a \cdot 0 + a \cdot 0\)
    Wegen der Eindeutigkeit des neutralen Elements der Addition (auto(a)) muss gelten
    \(a \cdot 0 = 0.\)

  2. Die Rückwärtsrichtung \(\Leftarrow\) folgt direkt aus (a).
    \(\Rightarrow\)-Richtung: wenn \(b = 0\) gilt die Aussage, wenn \(b \neq 0\) dann exisiert ein \(b^{-1}\) (\(\KH\))
    und \(ab = 0\) wird gelöst durch (auto(f)) \(a = 0 \cdot b^{-1} = 0\). Damit folgt die Behauptung.

  3. Wir beweisen nur \(a(-b) = -(ab)\), der andere Fall ist analog zu führen:
    \(ab + a(-b) \stackrel{\KI}{=} a(b - b) \stackrel{\KD}{=} a \cdot 0 \stackrel{(a)}{=} 0.\)
    Damit folgt insgesamt wegen der Eindeutigkeit des negativen Elements von \(ab\), dass
    \(a(-b) = -(ab)\).

  4. \((-a)(-b) \stackrel{(c)}{=} -(a(-b)) \stackrel{(c)}{=} -(-(ab)) \stackrel{\mathtip{\text{(S.2.10(c))}}{-(-a) = a}}{=} ab.\)

Damit haben wir bereits einen Großteil der Regeln, die Sie vermutlich schon seit Jahren im Schlaf anwenden, aus den neun Eigenschaften eines Körpers abgeleitet. Wie bereits gesagt, gibt es auch andere Körper (wie \(\Q\)). Da wir nur die Körpereigenschaften benutzt haben, gelten die Regeln für beliebige Körper. Gehen wir nun einen Schritt weiter zu geordneten Körpern.

Folgerungen aus den Eigenschaften eines geordneten Körpers

Legen wir direkt los, indem wir die Eigenschaften eines geordneten Körpers noch einmal wiederholen:

\[ \begin{align*} (\text{O1}) &\quad \forall\, a \in K \text{ gilt genau eine der drei Beziehungen } (a \in P), (a = 0), (-a \in P)\\[2mm] (\text{O2}) &\quad \forall\, a,b \in P :\, a + b\, \in P\\[2mm] (\text{O3}) &\quad \forall\, a,b \in P :\, ab\, \in P\\ \end{align*} \]

Darüber hatten wir die Vergleichsoperatoren definiert:

\[ \begin{align*} a < b& \Leftrightarrow (b - a) \in P\\ a > b& \Leftrightarrow b < a\\ a \leq b& \Leftrightarrow (a < b)\or a = b\\ a \geq b& \Leftrightarrow b \leq a. \end{align*} \]

Mit diesen Eigenschaften können wir die üblichen Regeln für das Arbeiten mit Ungleichungen herleiten. Ab hier werden wir die Körpereigenschaften nicht mehr jedes Mal explizit in den Beweisen mit angeben, aber prüfen Sie gerne selbst nach, warum die Umformungen jeweils gelten.

In einem geordneten Körper \(K\) gilt für beliebige Elemente \(a,b,c,d \in K\) und \(x \in K\setminus\set{0}\):

  1. Es gilt genau eine der drei Aussagen: \((a < b)\), \((a > b)\), \((a = b)\)
  2. \((a < b) \and (b < c) \quad \Rightarrow \quad a < c\)
  3. \((a < b) \and (c \leq d) \quad \Rightarrow \quad a + c < b + d\)
  4. \((a < b) \and (x > 0) \quad \Rightarrow \quad ax < bx\)
    \((a < b) \and (x < 0) \quad \Rightarrow \quad ax > bx\)
  5. \(a < b \quad \Leftrightarrow \quad -a > -b\)
  6. \(x^2 := x\cdot x > 0\), insbesondere \(1^2 = 1 > 0\)
  7. \(0 < a < b \quad \Leftrightarrow \quad 0 < b^{-1} < a^{-1}\)
Beweis
  1. Folgt sofort aus \(\OA\), wenn man die Definition der Vergleichsoperatoren einsetzt.

  2. \(a < b \Leftrightarrow (b - a)\in P\) und \(b < c \Leftrightarrow (c - b)\in P\).
    Daraus folgt mit \(\OB\): \((b - a) + (c - b)\in P\).
    Es gilt also \((b - a) + (c - b) = c - a \in P\).
    Daraus folgt die Behauptung \(a < c\).

  3. Betrachten wir zunächst den Fall \(c < d\): \(a < b \Leftrightarrow (b - a)\in P\) und \(c < d \Leftrightarrow (d - c)\in P\).
    Daraus folgt mit \(\OB\): \((b - a) + (d - c)\in P\).
    Es gilt weiter: \((b - a) + (d - c) = b + d - (a + c) \in P\).
    Hieraus folgt die Behauptung: \(a + c < b + d\).

    Nun fehlt noch der Fall c = d: \(a < b \Leftrightarrow (b - a)\in P\).
    Nach \(\KC\) und \(\KD\) gilt: \(b - a = (b + 0 - a) = b + c - c - a = (b + c) - (c + a)\).
    Hieraus folgt die Behauptung: \(a + c < b + d\).

  4. Betrachten wir zunächst den Fall \(x > 0 \Leftrightarrow x \in P\):
    mit \((b - a)\in P\) folgt aus \(\OC\) sofort \((b - a)x = bx - ax \in P \Leftrightarrow ax < bx\).

    Betrachten wir nun den Fall \(x < 0 \Leftrightarrow -x \in P\):
    mit \((b - a)\in P\) folgt aus \(\OC\) sofort
    \((b - a)(-x) = -bx - (-ax) = ax - bx \in P \Leftrightarrow ax > bx\).

  5. Folgt aus (c) mit \(c = d = -a - b\).

  6. Ist \(x > 0\) so ist nach \(\OC\) \(\quad x\cdot x = x^2 > 0\).
    Ist \(x < 0\) so ist \(-x > 0\) und damit nach \(\OC\): \(\quad(-x)(-x) \stackrel{\text{S.2.14(d)}}{=} x^2 > 0\).

  7. Wir zeigen zunächst \(a > 0 \Leftrightarrow a^{-1} > 0\): Ist \(a > 0\), dann folgt mit \(aa^{-1} = 1\) und auto(b), dass auch \(a^{-1} \neq 0\) gelten muss.
    Wäre \(a^{-1} < 0\) so würde aus (d) folgen \(aa^{-1} > 0\).
    Dies steht aber im Widerspruch zu \(1 > 0\) (f) (↯). Also muss gelten \(a^{-1} > 0\).
    Die umgekehrte Richtung gilt analog, da \((a^{-1})^{-1} = a\).

    Also gilt \((0 < a < b) \Rightarrow (a > 0 \and b > 0) \Leftrightarrow (a^{-1} > 0 \and b^{-1} > 0 \Rightarrow a^{-1}b^{-1} > 0)\).
    Für \(0 < b^{-1} < a^{-1}\) ist sofort klar, dass hier ebenfalls gilt \((a^{-1}b^{-1} > 0).\)

    Also können wir die Ausgangsgleichung wie in (d) mit \(x = a^{-1}b^{-1} > 0\) multiplizieren, woraus folgt: \((0 < a < b) \Leftrightarrow (0\cdot a^{-1}b^{-1} < aa^{-1}b^{-1} < ba^{-1}b^{-1}) \Leftrightarrow 0 < b^{-1} < a^{-1}\).

In vielen Fällen ist es sinnvoll, reelle Zahlen zu betrachten, die einen gewissen maximalen Abstand zu \(0\) besitzen. Zum Beispiel haben alle \(x \in \R\) mit \(-2 \leq x \leq 2\) einen maximalen Abstand von \(2\). Um so etwas kompakt angeben zu können, definieren wir uns den (Absolut-)Betrag einer reellen Zahl.

Für \(x \in \R\) heißt \[\abs{x} \mathrel{:=} \begin{cases} x & \text{falls } x \geq 0 \\ -x & \text{falls } x < 0 \end{cases}\] der (Absolut-)Betrag von \(x\).

Diese Betragsdefinition setzt einen geordneten Körper voraus. Wir werden später noch andere Betragsdefinitionen für ungeordnete Körper kennen lernen. Für Beträge lassen sich die folgenden Eigenschaften zeigen:

Für alle \(x,y \in \R\) und \(\eps\in\R\) mit \(\eps>0\) gilt

  1. \(\abs{x}\ge0\ \and\ (\abs{x}=0\ \Leftrightarrow\ x=0)\)
  2. \(\abs{x\cdot y} = \abs{x} \cdot \abs{y}\)
  3. \(\left( \abs{x}<\eps \right) \;\Leftrightarrow\; \left( x < \eps \right) \and \left( -\eps < x \right) \;\Leftrightarrow\; \left(-\eps<x<\eps\right)\)
    \(\left( \abs{x} \leq \eps \right) \;\Leftrightarrow\; \left(x\leq\eps\right) \and \left(-\eps \leq x \right)\;\Leftrightarrow\; \left(-\eps \leq x \leq \eps\right)\)
  4. \(\abs{x+y}\le\abs{x}+\abs{y} \quad\) (Dreiecksungleichung)
  5. \(\abs{\abs{x} - \abs{y}} \le \abs{x - y}\;\) (umgekehrte Dreiecksungleichung)
Beweis
  1. Folgt unmittelbar aus der Definition

  2. Folgt durch sorgsame Fallunterscheidung mit allen Kombinationen aus \(x,y \geq 0\) und \(x,y < 0\) (als Übung).

  3. Die zweite Äquivalenz jeder Zeile ist jeweils nur eine andere Schreibweise. Zu zeigen ist die erste. Wir führen nur den \(<\)-Fall, da der \(\leq\)-Fall völlig analog geführt werden kann.

    \(\Rightarrow\)-Richtung: Sei \(\abs{x} < \eps\).
    Für \(x \geq 0\) folgt dann \(-\eps < 0 < x = \abs{x} < \eps\)
    Für \(x < 0\) folgt \(-x > 0\) und damit \(-\eps < 0 < -x = \abs{x} < \eps\).

    \(\Leftarrow\)-Richtung: Sei \(-\eps<x<\eps\).
    Für \(x \geq 0\) folgt dann \(\abs{x} = x < \eps\).
    Für \(x < 0\) folgt \(\abs{x} = -x < \eps\), da \(x > -\eps \Leftrightarrow -x < \eps\).

  4. Da \(x \leq \abs{x}\) und \(y \leq \abs{y}\) folgt aus auto(c) \[x+y \leq \abs{x} + \abs{y}\] und da ebenfalls \(-x \leq \abs{x}\) und \(-y \leq \abs{y}\) gilt, folgt \[-(x+y)=-x-y \leq \abs{x} + \abs{y}.\] Damit gilt nach (c) \[\abs{x+y} \leq \abs{x} + \abs{y}.\]

  5. Beweis als Übung.

Über Beträge kann nicht nur der Abstand zur Null, sondern zu einer beliebigen Zahl angegeben werden. So haben beispielsweise alle \(x \in \R\), für die gilt \(|x - 2| < 3\) einen kleineren Abstand als \(3\) zur Zahl \(2\). Dies definiert eine sogenannte Metrik:

Sei \(A\) eine Menge. Wir nennen eine Abbildung \(d : A \times A \to \R\) eine Metrik auf \(A\), wenn für alle \(x,y,z \in A\) die folgenden drei Eigenschaften erfüllt sind:

  1. Positive Definitheit: \[ \begin{align*} d(x,y) &> 0 \;\text{ für }\; x \neq y \\ d(x,y) &= 0 \;\text{ für }\; x = y \end{align*} \]

  2. Symmetrie: \[d(x,y) = d(y,x)\]

  3. Dreiecksungleichung: \[d(x,y) \leq d(x,z) + d(z,y)\]

Es lässt sich leicht zeigen, dass wir über den Betrag eine Metrik auf \(\R\) definieren können:

Die Abbildung \(d : \R \times \R \to \R\) mit \[d(x,y) = \abs{x - y}\] definiert eine Metrik auf \(\R\).

Beweis
  1. Folgt direkt aus auto(a).
  2. Folgt aus auto(b) mit \[d(x,y) = \abs{x - y} = \abs{-1(y - x)} = \abs{-1}\abs{y-x} = \abs{y - x} = d(y,x)\]
  3. Folgt aus auto(d) mit \[d(x,y) = \abs{x - y} = \abs{x - z + z - y} \leq \abs{x - z} + \abs{z - y} = d(x,z) + d(z,y)\]

Auch wenn wir für ungeordnete Körper verschiedene Elemente nicht der Größe nach ordnen können, so lässt sich zeigen, dass man in einigen Fällen eine Metrik definieren kann. Damit können wir trotzdem Sätze anwenden, in denen wir Abstände vergleichen.

Folgerungen aus der Vollständigkeit

Bisher haben wir unser Vollständigkeitsaxiom noch nicht verwendet und daher gelten alle bisherigen Regeln für beliebige (geordnete) Körper (z.B. auch \(\Q\)). Die Folgerungen aus der Vollständigkeit gelten dagegen nur für vollständige Körper (wie \(\R\)).

Wir werden im Laufe der Vorlesung immer wieder auf die Vollständigkeit zurückkommen, wenn wir uns wichtige Hilfsmittel der Analysis (wie Folgen und Reihen) erarbeitet haben. Schauen wir uns zunächst eine “kleine” Folgerung an. Zur Wiederholung, noch einmal unsere Definition der Vollständigkeit:

Die Existenz eines Supremums für abgeschlossene Teilmengen reeller Zahlen ist damit schon durch das Axiom 3 gegeben. Es fehlt noch ein Beweis für die Eindeutigkeit von Suprema, sowie für die Existenz und Eindeutigkeit von Infima.

In einem vollständigen Körper \((K, +, \cdot)\)

Beweis

Das Supremum existiert nach Axiom 3.

Angenommen das Supremum \(s\) wäre nicht eindeutig, dann existiert ein weiteres \(s' = \mathrm{sup}(\overline{M})\).
\(s'\) kann nicht größer als \(s\) sein, da sonst \(s'\) nicht die kleinste obere Schranke wäre.
\(s'\) kann nicht kleiner als \(s\) sein, da sonst \(s\) nicht die kleinste obere Schranke wäre.
Nach \(\OA\) folgt dann dass \(s = s'\) ist. Das Supremum ist also eindeutig.

Für das Infimum betrachten wir die am Nullpunkt gespiegelte Menge \(-\underline{M} = \set{x \with -x \in M}\). Da \(\underline{M}\) nach unten beschränkt ist, muss \(-\underline{M}\) nach oben beschränkt sein. Daher muss nach Axiom 3 für \(-\underline{M}\) ein Supremum existieren, das, wie wir oben gezeigt haben, eindeutig ist. Dieses ist per Konstruktion das Infimum von \(\underline{M}\).

Da alle anderen Axiome auch für \(\Q\) gelten, können wir aus der Vollständigkeit der reellen Zahlen nur Folgerungen ziehen, die nicht für \(\Q\) gelten. Also z.B. die Existenz einer Zahl \(\sqrt{a} \in \R\), für die \((\sqrt{a})^2 = a\) gilt. Natürlich gibt es einzelne rationale Zahlen, für die das ebenfalls gilt, wie \(2 = \sqrt{4}\). Aber allgemein kann man die Existenz von Wurzeln nur für vollständige Körper zeigen.

Für alle reellen Zahlen \(a \geq 0\) existiert eine eindeutige nicht-negative reelle Zahl \(x\), für die gilt \(x^2 := x \cdot x = a\). Wir nennen diese Zahl Quadratwurzel von \(a\), oder \(\sqrt{a}\).

Beweis

Wir haben die \(2\) bisher nicht definiert. Darauf gehen wir später noch ein, aber für diesen Beweis definieren wir \(2 := 1 + 1\). Dies wird unser erster etwas umfangreicherer Beweis.

Fall 1: \(a = 0\)
Nach auto(b) kann ein Produkt \(x\cdot x\) nur dann \(0\) sein, wenn mindestens einer der beiden Faktoren 0 ist, daraus folgt \(\sqrt{0} = 0\).

Fall 2: \(a > 0\)

Existenz:

Wir starten zunächst mit dem Beweis der Existenz einer Lösung. Dazu betrachten wir die Menge \(M\) aller positiven reellen Zahlen, für die \(y^2 \leq a\) gilt, also:

\[M = \set{y \in \R \with y \geq 0 \and y^2 \leq a}\]

Da \(0^2 = 0 < a\), muss \(0\) eine Element von \(M\) sein, also ist \(M\) nicht leer.

Außerdem gilt für \(a + 1\):

\[(a + 1)^2 = a^2 + 2a + 1 > a^2 \]

Also ist \(a + 1\) eine obere Schranke von \(M\) und \(M\) ist nach oben beschränkt. Damit sind die Bedingungen für unser Vollständigkeitsaxiom für \(M\) erfüllt, und es existiert ein \(x = \mathrm{sup}(M) \in \R\). Es fehlt also noch zu zeigen, dass \(x^2 = a\) gilt. Das beweisen wir per Widerspruch. Wir nehmen also an \(x^2 \neq a\), das bedeutet, dass entweder \(x^2 > a\) oder \(x^2 < a\) gelten muss (auto).

Widerspruch Fall 2.1: (\(x^2 > a\))

Wir betrachten \(s = x - \frac{x^2 - a}{2x}\).

Es gilt \(x^2 > a \Leftrightarrow x^2 - a > 0 \Leftrightarrow \frac{x^2 - a}{2x} > 0\)
Gleichzeitig gilt auch: \(x^2 > -a \Leftrightarrow 2x^2 > x^2 - a \Leftrightarrow x > \frac{x^2 - a}{2x}\)

Daraus folgt \(x > x - \frac{x^2 - a}{2x} = s > 0\).

Betrachten wir \(s^2\), dann folgt:

\[\begin{align*} s^2 &= \left(x - \frac{x^2 - a}{2x}\right)^2\\ &= x^2 - 2x\frac{x^2 - a}{2x} + \underbrace{\left(\frac{x^2 - a}{2x}\right)^2}_{>0}\\ &> x^2 - 2x\frac{x^2 - a}{2x}\\ &= x^2 - x^2 + a\\ &= a \end{align*}\]

Also \(s^2 > a\). Damit gilt für jedes \(y \in M\): \(y^2 \leq a < s^2\). Daraus folgt auch \(y < s\) (Beweisen Sie zur Übung diese Folgerung per Kontraposition).

Also ist \(s\) eine obere Schranke und \(s < x\) steht im Widerspruch dazu, dass \(x\) die kleinste obere Schranke ist (↯). Somit muss unsere Annahme (\(x^2 > a\)) falsch sein.

Widerspruch Fall 2.2: (\(x^2 < a\))

Hier betrachten wir zunächst \(z = \mathrm{min}\set{1, \frac{a - x^2}{2x + 1}}\)

Es lässt sich wieder leicht zeigen, dass \(\frac{a - x^2}{2x + 1} > 0\) gilt.
Dadurch, dass wir das Minimum mit \(1\) bilden, gilt insgesamt \(0 < z \leq 1\), woraus durch Multiplikation mit \(z\) folgt \(0 < z^2 \leq z\).

Dann gilt:

\[\begin{align*} (x + z)^2 &= x^2 + 2xz + z^2 \\ &\leq x^2 + 2xz + z\\ &= x^2 + (2x + 1)z\\ &\leq x^2 + (2x + 1)\frac{a - x^2}{2x + 1}\\ &= a \end{align*}\]

Also insgesamt \((x + z)^2 \leq a\). Nach der Definition von \(M\) muss also gelten \(x + z \in M\). Dies steht aber im Wiederspruch dazu, dass \(x\) die kleinste obere Schranke ist, da \(x < x + z\). Somit muss unsere Annahme (\(x^2 < a\)) falsch sein.

Aus den beiden Wiedersprüchen 2.1 und 2.2 folgt, dass für unser \(x = \mathrm{sup}(M)\) gelten muss: \(x^2 = a\).

Eindeutigkeit

Noch zu zeigen ist, dass es kein zweites positives \(x'\) gibt, für das ebenfalls gilt \(x'^2 = a\).

Dies ist einfach: Nehmen wir an, es gäbe so ein \(x'\), dann folgt:

\[(x - x')(x + x') = x^2 - x'^2 = a - a = 0\]

Ein Produkt aus zwei zwei Faktoren kann aber nur dann \(0\) sein, wenn einer der Faktoren \(0\) ist (auto(b)).

\(x + x' = 0\) kann nicht gelten, da daraus folgt \(x' = -x < 0\), was \(x' > 0\) widerspricht (↯).

\(x - x' = 0\) führt zu \(x = x'\).

Es gibt also genau eine positive reelle Lösung zu \(x^2 = a\).

Ganz analog lässt sich auch die Existenz von \(k\)-ten Wurzeln mit \(k \in \N\), also \(\sqrt[k]{a}\) für \(a > 0\), beweisen. Hierfür werden wir aber später noch einen anderen Beweis sehen.

Definition der natürlichen, ganzen und rationalen Zahlen

Ausgestattet mit unserer Definition der reellen Zahlen können wir nun die natürlichen Zahlen und darauf aufbauend die ganzen und rationalen Zahlen jeweils als Teilmengen der reellen Zahlen definieren. Da wir Regeln wie \(x^2 > 0\) aus dem letzten Abschnitt für allgemeine reelle Zahlen bewiesen haben, gelten diese auch für bestimmte reelle Zahlen, wie zum Beispiel natürliche Zahlen. Wir werden also nun die einzelnen Zahlenmengen über die reellen Zahlen definieren.

Natürliche Zahlen

Wie Ihnen vielleicht aufgefallen ist, haben wir bisher nur zwei Zahlen in den reellen Zahlen wirklich klar festgelegt, nämlich \(0\) und \(1\) (und evtl. noch \(-1\) durch die Existenz des Inversen). Wissen wir also überhaupt, dass nach unseren bisherigen Axiomen \(2 \in \R\) sein muss, oder \(1 + 1 = 2\) gilt? Dies kann zumindest nicht aus den Körpereigenschaften folgen, da wir bereits in auto einen Körper gesehen haben, der nur aus \(\set{0,1}\) besteht und für den \(1 + 1 = 0\) gilt. Genau wie die Symbole \(0\) und \(1\), die wir für das Null- und Einselement gewählt haben, ist \(2\) lediglich ein Symbol des Dezimalsystems. Und dieses Symbol ist auch nicht überall gleich. Ein Mensch aus Japan oder China würde vielleicht eher statt \(1\) verwenden. Die \(2\) ist ein gewähltes Zeichen, wenn wir (im Dezimalsystem) nicht umständlich \(1 + 1\) sagen wollen. Im Japanischen/Chinesischen sieht man das dem gewählten Zeichen () sogar an, genauso wie in vielen anderen Schriftsystemen (z.B. die römische Zahl II). Als Informatiker fällt uns natürlich sofort eine weitere Art ein, \(1 + 1\) darzustellen, nämlich im Binärsystem als \(10\). Wir werden uns später noch mit verschiedenen Stellenwertsystemen beschäftigen, aber bis hierhin sollte Ihnen klar geworden sein, dass die Zahlzeichen (\(2,3,4,\ldots\)) natürlich nicht aus unseren Axiomen folgen.

Die natürlichen Zahlen definieren wir in zwei Schritten. Wir beginnen mit der induktiven Menge

Wir nennen eine Menge \(M \subseteq \R\) induktive Menge, wenn gilt:

  1. \(1 \in M\)
  2. \(\forall x \in M \,:\, x + 1 \in M\)

Auf den ersten Blick sieht es so aus, als wären wir hier schon fertig mit der Definition von \(\N\), aber nach kurzer Überlegung fällt auf, dass auch andere Mengen existieren, wie \(M = \set{1,1.5,2,2.5,3,3.5,\ldots}\), auf die die Definition zutrifft. Sogar \(\R\) selbst ist eine induktive Menge. Allerdings enthalten alle diese Mengen die natürlichen Zahlen, also \(\N \subseteq M\). \(\N\) ist also die ‘kleinste’ induktive Menge. Nun ist es aber nicht so einfach definierbar, was ‘kleinste’ hier bedeutet, da \(\N\) bekanntlich aus unendlich vielen Elementen besteht. Daher benutzen wir stattdessen den \(\cap\)-Operator aus auto:

Sei \(\mathcal{N}\) die Menge aller induktiven Mengen. Wir definieren die Menge der natürlichen Zahlen \(\N\) als:

\[\N = \bigcap\limits_{M \in \mathcal{N}}M\]

Darüber hinaus definieren wir

\[\N_0 = \N \cup \set{0}\]

Anders gesagt besteht \(\N\) aus allen Elementen, die in jeder induktiven Menge enthalten sind. Wenn wir uns nun noch, wie oben bereits beschrieben, unsere typischen Zahlsymbole definieren (\(2 := 1 + 1, 3 := 2 + 1, 4:= 3 + 1, \ldots\)) wird klar, dass demnach \(\N = \set{1,2,3,4,\ldots}\) gilt. Es lässt sich ebenfalls sofort zeigen, dass \(\N\) selbst eine induktive Menge ist. Wie bereits gesagt, gelten die meisten Regeln, die für Elemente von \(\R\) gelten, auch für natürliche Zahlen, da diese per Definition auch reell sind.

  1. Für jede Zahl \(n \in \N\) gilt \(n \geq 1\).
  2. Summen und Produkte natürlicher Zahlen sind wieder natürliche Zahlen.
  3. Für \(n,m \in \N\) ist die Differenz \(n - m\) genau dann eine natürliche Zahl, wenn \(n > m\).
  4. Für alle \(n \in \N\) existiert kein \(m \in \N\) für das gilt \(n < m < n + 1\).
Beweise per vollständiger Induktion als Übung

Falls Sie im Kapitel der Beweistechniken unseren Exkurs in die geraden und ungeraden Zahlen gelesen haben, wird Ihnen hier auffallen, dass diese Eigenschaften, besonders (b), dort wichtig waren.

Zuletzt beweisen wir noch einen nützlichen kleinen Satz.

\[\forall x \in \R\ \exists n \in \N \,:\, x < n,\]

oder in anderen Worten: \(\N\) besitzt keine obere Schranke.

Beweis

Wäre \(\N\) nach oben beschränkt, folgt nach dem Vollständigkeitsaxiom, dass für \(\N\) ein Supremum \(s \in \R\) existiert. Es muss daher ein \(n \in \N\) existieren, mit \(n > s - 1\), da sonst eine kleinere obere Schranke \(s' = s - 1\) existieren würde.

Aus \(n > s - 1\) folgt \(n + 1 > s\). Wenn \(n \in \N\), muss nach der Definition der induktiven Menge auch \(n + 1 \in \N\) sein. Demnach kann \(s\) aber nicht das Supremum sein, was einen Widerspruch darstellt (↯). Somit muss \(\N\) nach oben unbeschränkt sein.

Die natürliche Zahlen bilden die Basis für die folgenden Zahlenmengen.

Ganze Zahlen

Wir definieren die Menge der ganzen Zahlen \(\Z\) als

\[\Z = \set{0} \cup \set{n \with n \in \N \or -n \in \N}.\]

Also anders gesagt: \(\Z = \set{0, 1, -1, 2, -2, 3, -3, \ldots}\). Man kann zeigen, dass die ganzen Zahlen die ersten vier Körpereigenschaften erfüllen und damit mit der Addition eine Gruppe bilden. Die Eigenschaften (b) und (d) von auto gelten auch wenn man im Satz \(\N\) durch \(\Z\) ersetzt. Außerdem gilt folgender nützlicher Satz:

Für jedes \(x \in \R\) gibt es zwei eindeutige Zahlen \(m,n \in \Z\), sodass gilt:

  1. \(m \leq x < m + 1\)
  2. \(n - 1 < x \leq n\)

Somit können wir jede reelle Zahl schreiben als \(x = m + \rho\), wobei \(\rho = x - m\).

Wir definieren darüber:

  • \(\floor{x} := m\quad\) (untere Gaußklammer)
  • \(\ceil{x} := n\quad\) (obere Gaußklammer)
Beweis

Hier nur exemplarisch für (a), (b) beweist man analog. Zusätzlich beschränken wir uns auf \(x > 0\) für \(x < 0\) wendet man die selbe Strategie auf \(-x\) an:

Nach der archimedischen Eigenschaft von \(\R\) gibt es mindestens ein \(n \in \N \,:\, n > x\). Wir wählen aus der Menge dieser größeren natürlichen Zahlen das Minimum:

\[m' = \mathrm{min}\set{n \in \N \,:\, n > x}\]

dann ist \(m = m' - 1\) und es gilt \(m < x < m + 1\). Wir müssen also nur noch zeigen, dass kein zweites \(k \in \Z \setminus \set{m}\) mit \(k \leq x < k + 1\) existieren kann:

Würde es existieren, müsste \(k < m\) oder \(k > m\) gelten, was für ganze Zahlen identisch ist mit \(k + 1\leq m\) oder \(k - 1 \geq m\). Sei also \(k + 1\leq m\), dann folgt: \(k + 1 \leq m \leq x < k + 1\), also der Widerspruch \(k + 1 < k + 1\) (↯). Der zweite Fall führt analog zum Widerspruch.

Damit muss \(m\) eindeutig sein.

\[ \begin{align*} \floor{2.1} &= 2\\ \ceil{2.1} &= 3\\ \floor{-2.1} &= -3\\ \ceil{-2.1} &= -2\\ \floor{2} &= 2\\ \ceil{2} &= 2 \end{align*} \]

Das letzte Beispiel zeigt, warum wir \(m\) und \(n\) brauchen, denn wenn wir \(\ceil{x} = m + 1\) definiert hätten, wäre \(\ceil{2} = 3\). Wenn \(x\) keine ganze Zahl ist, gilt aber \(m + 1\) = \(n\).

Mit dem auto können wir den Modulo-Operator einführen, die Basis für die Arbeit mit sogenannten Restklassen, die Ihnen noch häufiger im Studium begegnen werden:

Für alle \(z \in \Z\) und \(n \in \N\) gibt es eindeutige \(m,r \in \Z\), \(r < n\) mit \[z = mn + r\]

Man schreibt auch \[r = z \;(\mathrm{modulo} \, n)\]

als Rest der (ganzzahligen) Division von \(z\) mit \(n\).

Beweis

Der Beweis folgt aus auto mit \(x = \frac{z}{n}\). Demnach gibt es ein eindeutiges \(m\) mit \(m \leq x < m + 1\).

Damit ergibt sich \[x = \frac{z}{n} = m + (\frac{z}{n} - m) \quad \Leftrightarrow \quad z = mn + r\] mit \(r = z - mn\).

Rationale Zahlen

Wir definieren die Menge der rationalen Zahlen als \[\Q \mathrel{:=} \set{ \frac{p}{q} \With p,q \in \Z \and q \neq 0 }\]

Wir bezeichnen \(p\) als Zähler und \(q\) als Nenner.

Wir nennen alle \(x \in \R\setminus\Q\) irrational.

Wir wollen hier auch schon zwei Beispiele für Zahlen geben, die irrational sind. Genau genommen zeigen wir hier nur, dass sie nicht rational sind. Es fehlt noch der Beweis, dass es sie wirklich in \(\R\) gibt. Für Quadratwurzeln wurde dies bereits in auto gezeigt.

Als Erstes zeigen wir das typische Lehrbuchbeispiel für eine irrationale Zahl: \(\sqrt{2}\). Im Anschluss führen wir einen geometrischen Beweis für die Irrationalität des sogeannten goldenen Schnitts.

Beweis Wurzel aus 2 ist nicht rational

Der Beweis wird klassisch über einen Widerspruchsbeweis geführt. Wir nehmen also an, es gäbe eine Lösung von \(x^2 = 2\) mit \(x \in \Q\), also \(x = p/q\) für ein \(p \in \Z\) und \(q \in \N\).

Wir nehmen außerdem an, dass \(p\) und \(q\) teilerfremd sind (also x maximal gekürzt ist). Das ist immer möglich (überlegen Sie, warum?).

Daraus folgt

\[2 = \left(\frac{p}{q}\right)^2 \Leftrightarrow p^2 = 2q^2.\]

Aus unserem Exkurs der Beweistechniken wissen wir, dass \(2q^2\) eine gerade Zahl ist. Also muss \(p^2\) ebenfalls gerade sein. Ebenfalls aus dem Exkurs (Satz E1.3) wissen wir, dass dann \(p\) ebenfalls gerade ist.

Wenn p aber gerade ist, gibt es ein \(k \in \Z\) mit \(p = 2k\). Daraus folgt

\[p^2 = (2k)^2 = 4k^2 = 2q^2 \Leftrightarrow 2k^2 = q^2.\]

Was bedeutet, dass \(q^2\) und somit auch \(q\) gerade sind. Wenn aber sowohl \(p\) als auch \(q\) gerade sind, steht dass im Widerspruch zur Voraussetzung, dass \(p\) und \(q\) teilerfremd sind (↯). Daher kann keine rationale Zahl exisitieren, die \(x^2 = 2\) löst, oder anders gesagt, wenn es eine reelle Lösung gibt, dann ist sie irrational.

Beweis goldener Schnitt ist nicht rational

Diesen Beweis führen wir hier einmal ganz anders, ähnlich wie ihn die alten Griechen geführt hätten. Damals wurden alle Beweise geometrisch geführt, also über Längen von Strecken, Winkel, Flächen, usw. Dadurch sind diese Beweise manchmal oft sehr anschaulich.

Der goldene Schnitt ist das Verhältnis (der Bruch) \(q\) aus zwei Zahlen \(a,b\) für die gilt:

\[q = \frac{a}{b} = \frac{a + b}{a}\]

Durch ein wenig Umformen lässt sich diese Gleichung lösen:

\[\begin{align*} q &= \frac{a + b}{a} = 1 + \frac{1}{q} \\ \Leftrightarrow 0 &= q^2 - q - 1 \\ \Leftrightarrow q &= \frac{1 + \sqrt{5}}{2}\end{align*}\]

Wir könnten analog zum Beiweis von \(\sqrt{2}\) zeigen, dass \(\sqrt{5}\) irrational ist, aber das wäre nicht die Art und Weise, wie die alten Griechen den Beweis geführt hätten. Dort hätte man sich den goldenen Schnitt beispielsweise durch ein regelmäßiges Fünfeck visualisiert:

../images/00-5eck.svg

Verbindet man hier die Eckpunkte miteinander, ergibt sich in der Mitte der Figur erneut ein regelmäßiges Fünfeck. Wenn Sie ihre Schulgeometriekenntnisse nutzen, können Sie mit dem Strahlensatz zeigen, dass das Verhältnis den beiden farbigen Seitenlängen genau dem goldenen Schnitt entspricht.

../images/01-5eck.svg

Die Frage nach der Rationalität würden die alten Griechen folgendermaßen stellen: Gibt es einen Stab einer bestimmten Länge \(x\), der genau genau \(n\)-mal in die große Fünfeckseite passt und genau \(m\)-mal in die kleine (man sagt auch ‘mit dem Stab kann die Länge der Seiten abgetragen werden’)? Dabei müssen \(n\) und \(m\) natürliche Zahlen sein müssen und für das Verhältnis ergäbe sich eine rationale Zahl:

\[q = \frac{a}{b} = \frac{nx}{mx} = \frac{n}{m} \in \Q\]

Doch wie prüft man das geometrisch? Die Idee war damals folgende: Wenn man zwei natürliche Zahlen, z.B. \(6, 2\) betrachtet, dann sind diese entweder gleich groß oder unterschiedlich groß. Im zweiten Fall können wir die Differenz aus der größeren und der kleineren Zahl bilden: \[6-2 = 4\] und dies ergibt wieder eine natürlich Zahl. Von der Differenz und den beiden ursprünglichen Zahlen wählen wir die beiden kleinsten aus (\(2,4\)) und bilden erneut die Differenz aus der größeren und der kleineren: \[4 - 2 = 2\]

Dieser Algorithmus führt auf immer kleinere Zahlenpaare und muss früher oder später auf zwei gleiche natürliche Zahlen führen (spätestens bei \((1,1)\)). Die alten Griechen würden also nach und nach die kleinere Länge von der Größeren abziehen, bis sich zwei gleiche Längen ergäben. Der Algorithmus nennt sich übrigens Euklidischer Algorithmus und führt auf den größten gemeinsamen Teiler der beiden Zahlen.

Führen wir dies für das Fünfeck aus:

../images/02-5eck.svg
../images/03-5eck.svg
../images/04-5eck.svg

Nach zwei Schritten landen wir wieder in der Ausgangssituation, nur mit einem kleineren Fünfeck. Man kann sich leicht klar machen, dass auch die weiteren Schritte immer wieder auf kleinere Fünfecke führen würden und man somit niemals auf zwei gleiche Längen kommt. Dies zeigt, dass wir keinen Stab finden können, mit dem wir beide Längen abtragen können, oder mit unseren heutigen Worten: das Verhältnis der beiden Zahlen kann niemals aus einem Bruch natürlicher Zahlen bestehen. Der goldene Schnitt ist also nicht rational.

Abzählbarkeit von Zahlenmengen

In diesem Kapitel werden wir uns mit der Mächtigkeit von Zahlenmengen beschäftigen. Wir werden den Begriff der Mächtigkeit im Verlauf der Vorlesung nicht wieder benötigen, aber trotzdem gibt gibt es uns ein paar nützliche Einsichten über die verschiedenen Zahlenmengen. Daher werden wir hier ausnahmsweise keine strikten Beweise führen und eher auf sehr anschauliche Begründungen zurückgreifen.

Die Mächtigkeit einer Menge \(M\) schreibt man als \(|M|\) und für abzählbare Mengen entspricht diese der Anzahl der Elemente. Für Mengen mit unendlich vielen Elementen vergleicht man die Mächtigkeit der Menge mit der Mächtigkeit der natürlichen Zahlen \(\N\). Allerdings ist auch hier auf den ersten Blick noch nicht klar, wie dieser Vergleich funktioniert, da es unendlich viele Elemente in \(\N\) gibt. Die Lösung ist eine Zuordnung: Wir bestimmen also für jedes Element \(m\) aus der zu vergleichenden Menge \(M\) eine zugeordnete natürliche Zahle \(n \in \N\). Können wir eine Zuordnung so angeben, bei der jedem \(m \in M\) ein unterschiedliches \(n \in \N\) zugeordnet wird, dann nennen wir die Mächtigkeit der Menge \(M\) gleichmächtig zu \(\N\).

Wir nennen außerdem Mengen, die gleichmächtig zu \(\N\) sind abzählbar unendlich, weil die Menge unendlich viele Elemente enthält, aber wir diese nacheinander (mit unendlich viel Zeit) aufzählen könnten: dies ist das 1. Element, dies ist das 2., dies ist das 3. usw.. Manchmal hört man auch die Aussage, dass so eine abzählbar unendliche Menge “gleich viele” Elemente wie \(\N\) besitzt. Allerdings versagt die Vorstellung von “gleich viel” bei unendlichen Anzahlen, wodurch diese Aussage immer sehr unintuitiv wirkt, wie wir noch sehen werden. Mengen, für die man zeigen kann, dass keine solche Zuordnung existiert, nennt man überabzählbar unendlich.

Betrachten wir zwei Beispiele:

  1. Die Menge der geraden Zahlen \[ G = \set{2k \with\ k \in \N}\]

    Es ist schnell klar, dass es unendlich viele gerade Zahlen gibt. Vom Gefühl her würden wir denken, es gibt halb so viele gerade Zahlen wie natürliche Zahlen, weil jede zweite natürliche Zahl gerade ist. Mit dem Begriff der Mächtigkeit ist \(G\) allerdings gleich mächtig zu \(\N\) ist (abzählbar unendlich), da wir jedem \(k \in \N\) genau ein \(g \in G\) per \(g = 2k\) zuordnen können. Hier wird klar, dass man gleiche Mächtigkeit nicht mit “gleich viel” übersetzen sollte.

  2. Die Menge der Ganzen Zahlen \[\Z = \set{\ldots, -3,-2,-1,0,1,2,3,\ldots}\]

    Auch hier ist klar, dass es unendlich viele ganze Zahlen gibt. Vom Gefühl her würden wir denken, es gibt mindestens doppelt so viele gerade Zahlen wie natürliche Zahlen, da es für jedes \(n \in \N\) sowohl \(n\) als auch \(-n\) in \(\Z\) gibt (und zusätzlich noch das Nullelement). Allerdings können wir wie folgt zuordnen: \((1 \rightarrow 0)\), \((2 \rightarrow 1)\), \((3 \rightarrow -1)\), \((4 \rightarrow 2)\), \((5 \rightarrow -2)\), \((6 \rightarrow 3)\), \((7 \rightarrow -3)\), \((8 \rightarrow 4)\), u.s.w. Also jeder gerade natürlichen Zahl nacheinander die positiven ganzen Zahlen und jeder ungeraden natürlichen Zahl \(>1\) die negativen (und \(1 \rightarrow 0\)). Damit gibt es also eine Zuordnung von \(\N\) zu \(\Z\), die alle ganzen Zahlen abdeckt und somit sind \(\Z\) und \(\N\) gleichmächtig. Auch hier klingt die Aussage \(\Z\) ist abzählbar unendlich akzeptierbarer als “es gibt gleich viele ganze und natürliche Zahlen”.

Interessant wird es, wenn wir die “nächstgrößere” Zahlenmenge betrachten: die rationalen Zahlen \(\Q\). Also alle Zahlen, die sich als Bruch aus ganzen Zahlen schreiben lassen. Hier gilt sogar, dass es unendlich viele rationale Zahlen alleine zwischen \(0\) und \(1\) gibt, z.B.

\[\frac{1}{2}, \frac{1}{3}, \frac{1}{4}, \frac{1}{5}, \frac{1}{6}, \frac{1}{7}, \frac{1}{8}, \frac{1}{9}, \ldots\]

Aber auch hier lässt sich zeigen, dass eine Zuordnung aus den natürlichen Zahlen in die rationalen Zahlen existiert, die alle rationalen Zahlen abdeckt. Dafür ordnet man die rationalen Zahlen in einem Gitter an: die Spalte bestimmt den Zähler und die Reihe den Nenner:

\[\begin{array}{c|ccccccccccccc} && 1 & & 2 & & 3 & & 4 &\\ \hline \\[-2mm] 1 && \frac{1}{1} & \rightarrow & \frac{2}{1} & & \frac{3}{1} & \rightarrow & \frac{4}{1} & \cdots \\ && & \swarrow & & \nearrow & & \swarrow \\ 2 && \frac{1}{2} & & \frac{2}{2} & & \frac{3}{2} & & \frac{4}{2} & \cdots \\ &&\downarrow & \nearrow & & \swarrow \\ 3 && \frac{1}{3} & & \frac{2}{3} & & \frac{3}{3} & & \frac{4}{3} & \cdots \\ & && \swarrow \\ 4 && \frac{1}{4} & & \frac{2}{4} & & \frac{3}{4} & & \frac{4}{4} & \cdots \\ && \vdots & & \vdots & & \vdots & & \vdots & \end{array}\]

Die Pfeilrichtung gibt dabei die Reihenfolge der Nummerierung an. Es ist leicht erkennbar, dass man dies bis zu jeder (positiven) rationalen Zahl fortführen könnte. Anschließend verwendet man wieder den gleichen Trick, wie bei den ganzen Zahlen: die \(0\) ordnet man der \(1\) zu und anschließend nimmt man abwechselnd immer den positiven und dann den negativen Eintrag des Tabellenwerts in Pfeilrichtung. Somit kann man also auch für \(\Q\) die Abzählbarkeit zeigen. Diesen graphischen Beweis nennt man auch “Cantors erstes Diagonalargument” nach Gregor Cantor, einem Mathematiker aus dem 19. Jahrhundert, der sich viel mit den Zahlenmengen und Unendlichkeiten beschäftigt hat.

Auf ihn geht auch ein sehr anschaulicher Beweis zurück, der zeigt, warum die reellen Zahlen \(\R\) nicht abzählbar (überabzählbar) sind. Dieser ist “Cantors zweites Diagonalargument”. Um den Beweis zu verstehen, benötigen wir die Dezimaldarstellung reeller Zahlen. Diese können wir erst in Kapitel 3 einführen, da wir hierzu ein Grundverständnis von unendlichen Summen benötigen. Aber Sie kennen natürlich bereits aus der Schule die Dezimalschreibweise reeller Zahlen:

Dabei gibt es (wie wir später noch beweisen werden) endliche Dezimalzahlen, bei denen ab einer gewissen Dezimalstelle nur noch Nullen folgen (wie \(7/5\)), periodisch unendliche Dezimalzahlen, bei denen sich eine bestimmte Zahlenfolge unendlich oft wiederholt (wie \(1/7\)) und nicht-periodische unendliche Dezimalzahlen, bei denen keines der beiden ersten Kriterien zutrifft. Auf rationale Zahlen trifft immer der erste oder der zweite Fall zu. Alle irrationale Zahlen, also reelle Zahlen, die nicht rational sind, fallen in die dritte Kategorie.

Jetzt könnten wir uns zunächst fragen, wie “häufig” irrationale Zahlen unter den reellen Zahlen sind. Also etwas unmathematisch formuliert: wenn ich zufällig eine Zahl unter allen reellen auswählen würde, wie wahrscheinlich ist es, dass diese irrational ist? Da man in der Regel nur wenige Beispiele für irrationale Zahlen in der Schule (und selbst im Studium) kennenlernt und wir wissen, dass unendlich viele rationale Zahlen auf jeden noch so kleinen Teilabschnitt der Zahlengerade passen, liegt die Vermutung nahe, dass die irrationalen Zahlen eher die Ausnahme unter den reellen Zahlen sind.

Betrachten wir allerdings die unterschiedlichen Fälle reeller Dezimalzahlen wird schnell klar, dass rationale Zahlen eher die Ausnahme sind: Rationale Zahlen benötigen eine ganz bestimmte Struktur in der Dezimaldarstellung, wohingegen die irrationalen komplett chaotisch sein dürfen. Stellt man sich vor, man würfelt die einzelnen Dezimalstellen jeweils mit einem Zehnerwürfel (0–9), so wird offensichtlich, dass es viel wahrscheinlicher ist, dabei keine sich unendlich oft wiederholende Ziffernfolge zu würfeln, sondern eine eher chaotische Folge.

Es ist gar nicht so einfach zu zeigen, dass eine Zahl nicht rational ist. Beipielsweise existieren Beweise dafür, dass

irrational sind. Aber man konnte bisher nicht beweisen, dass auch

irrational sind, auch wenn dies vermutet wird. Es ist bisher sogar unklar, ob \((\pi^\pi)^\pi\) eine natürliche Zahl ist oder nicht, auch wenn man vermuten würde, dass das sehr offensichtlich nicht sein kann.

Wir haben also ein erstes Gefühl dafür bekommen, dass es deutlich mehr irrationale als rationale Zahlen gibt. Kommen wir also nun zur Mächtigkeit der reellen Zahlen \(\R\) und Cantors zweitem Diagonalargument. Hierbei wird die Überabzählbarkeit der reellen Zahlen zwischen \(0\) und \(1\) anschaulich bewiesen. Die Argumentation erfolgt als ein Widerspruchsbeweis: Wir nehmen also an, es gäbe eine Zuordnung von \(\N\) zu allen reellen Zahlen zwischen \(0\) und \(1\). Dann könnten wir deren Dezimaldarstellungen der Reihe nach hinschreiben. In dieser unendlich langen Aufzählung kämen alle reellen Zahlen zwischen \(0\) und \(1\) vor. Der Widerspruch kommt dadurch zustande, dass Cantor zeigt, wie man aus dieser Aufzählung eine neue reelle Zahl \(z\) zwischen \(0\) und \(1\) konstruieren kann, die nicht in der Aufzählung vorkommt. Dabei geht er wie folgt vor:

  1. Betrachte die erste Dezimalstelle der ersten Zahl der Aufzählung
    • Ist die Ziffer eine 9, setze die erste Dezimalstelle unserer neuen Zahl \(z\) auf \(8\).
    • Ansonsten setze die erste Dezimalstelle von \(z\) auf diese Ziffer plus 1.
  2. Wiederhole das Vorgehen für die zweite Dezimalstelle der zweiten Zahl in der Aufzählung und setze damit die zweite Dezimalstelle von \(z\).
  3. Wiederhole das Vorgehen für die dritte Dezimalstelle der dritten Zahl in der Aufzählung und setze damit die dritte Dezimalstelle von \(z\).

\[\begin{align*} x_1 &= 0.\:{\color{red} 3}\:2\:9\:4\:2\:5\:7\:5\:6\:6\:9\:1\:7\:4\:0\:1\:0\:4\:7\:3\:7\:2\:4\:9\:2\:1\:3\:7\:1\:4\:3\:3\:2\:4\:\ldots\\ x_2 &= 0.\:3\:{\color{red} 7}\:2\:8\:4\:6\:2\:0\:9\:4\:7\:5\:3\:9\:4\:8\:5\:6\:9\:3\:6\:4\:8\:2\:3\:4\:7\:3\:9\:8\:5\:6\:4\:7\:\ldots\\ x_3 &= 0.\:9\:0\:{\color{red} 8}\:4\:3\:6\:5\:8\:3\:7\:6\:4\:2\:3\:4\:6\:3\:8\:2\:4\:6\:8\:3\:2\:7\:5\:9\:4\:8\:5\:6\:3\:9\:4\:\ldots\\ x_4 &= 0.\:2\:9\:8\:{\color{red} 4}\:7\:5\:6\:9\:4\:3\:8\:6\:5\:9\:1\:2\:3\:8\:4\:7\:3\:9\:4\:5\:3\:4\:9\:0\:0\:0\:0\:0\:0\:3\:\ldots\\ x_5 &= 0.\:4\:6\:3\:4\:{\color{red} 7}\:5\:9\:0\:8\:8\:9\:8\:9\:8\:9\:8\:9\:8\:9\:8\:9\:8\:9\:8\:2\:3\:6\:3\:7\:4\:5\:2\:8\:3\:\ldots\\ x_6 &= 0.\:0\:0\:0\:0\:0\:{\color{red} 0}\:0\:0\:3\:2\:8\:4\:5\:7\:4\:5\:8\:4\:3\:7\:5\:6\:6\:6\:6\:4\:9\:0\:0\:0\:0\:0\:4\:5\:\ldots\\ x_7 &= 0.\:4\:4\:4\:4\:4\:4\:{\color{red} 4}\:4\:4\:4\:4\:4\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:0\:\ldots\\ x_8 &= 0.\:8\:3\:9\:2\:8\:5\:4\:{\color{red} 9}\:3\:0\:4\:9\:5\:7\:8\:4\:3\:6\:9\:4\:5\:6\:7\:4\:5\:3\:8\:5\:7\:9\:0\:3\:4\:7\:\ldots\\ x_9 &= 0.\:2\:3\:9\:4\:6\:9\:8\:4\:{\color{red} 9}\:3\:9\:8\:2\:4\:6\:3\:9\:7\:5\:6\:4\:3\:9\:5\:7\:2\:0\:4\:3\:7\:9\:2\:3\:8\:\ldots\\ x_{10} &= 0.\:8\:3\:9\:4\:4\:2\:8\:5\:4\:{\color{red} 0}\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:7\:\ldots\\ x_{11} &= 0.\:8\:3\:9\:2\:6\:5\:6\:8\:5\:4\:{\color{red} 4}\:0\:0\:1\:0\:0\:0\:1\:0\:0\:0\:0\:0\:1\:0\:0\:0\:0\:1\:0\:0\:0\:0\:0\:\ldots\\ x_{12} &= 0.\:1\:8\:3\:3\:9\:2\:3\:8\:7\:5\:4\:{\color{red} 4}\:3\:1\:4\:1\:5\:3\:7\:2\:8\:4\:3\:9\:2\:8\:5\:7\:5\:4\:9\:3\:5\:8\:\ldots\\ x_{13} &= 0.\:3\:2\:9\:6\:3\:4\:8\:7\:4\:8\:3\:9\:{\color{red} 2}\:9\:2\:3\:8\:4\:7\:8\:9\:8\:9\:8\:9\:8\:9\:8\:9\:8\:9\:8\:9\:8\:\ldots\\ \vdots&\\[6mm] z &= 0.\:4\:8\:9\:5\:8\:1\:5\:8\:8\:1\:5\:5\:3\:\ldots \end{align*}\]

Die so konstruierte neue Zahl \(z\) kann nicht gleich \(x_1\) sein, da deren 1. Dezimalstelle per Konstruktion unterschiedlich zu der von \(z\) ist. Sie kann aber auch nicht gleich \(x_2\) sein, da die 2. Dezimalstelle verschieden ist. Allgemein kann sie nicht gleich \(x_n\) sein, weil sie sich in der \(n\)-ten Dezimalstelle unterscheidet.

Somit ist \(z\) ungleich aller reellen Zahlen in der Aufzählung. \(z\), liegt aber ebenfalls zwischen \(0\) und \(1\). Dies steht im Widerspruch zu der Annahme, dass die Reihe alle reellen Zahlen enthält. Damit muss die Annahme, dass so eine Aufzählung existiert, falsch sein. Die reellen Zahlen zwischen \(0\) und \(1\) und somit natürlich auch \(\R\) im allgemeinen ist damit überabzählbar unendlich. Wie schon erwähnt, ist dies an dieser Stelle eigentlich noch kein gültiger Beweis, da wir die Grundlage (die Dezimaldarstellung reeller Zahlen) erst später einführen werden.

Summen, Produkte und Kombinatorik

Zur vereinfachten Schreibweise führen wir folgende Definition für Summen und Produkte ein:

Für \(n,m \in \Z\) und \(a_k \in \R\) definieren wir

\[ \begin{align*} \sum_{k=m}^n a_k \;&\mathrel{:=}\; \begin{cases} a_m + a_{m+1} + \ldots + a_n, &\text{falls}\; m \leq n\\[0.5em] 0, &\text{falls}\; m>n \end{cases}\\[0.5em] \prod_{k=m}^n a_k \;&\mathrel{:=}\; \begin{cases} a_m \cdot a_{m+1} \cdot \ldots \cdot a_n, &\text{falls}\; m \leq n\\[0.5em] 1, &\text{falls}\; m>n \end{cases} \end{align*} \]

Bisher sind wir noch größtenteils ohne Potenzen ausgekommen, bis auf ein vereinzeltes \(x^2\). Mit den natürlichen und ganzen Zahlen können wir endlich die ganzzahligen Potenzen definieren.

Für \(x \in \R\) und \(n \in \N\) definieren wir \[ x^n \;\mathrel{:=}\; \prod_{k=1}^n x \;=\; \underbrace{x \cdot x \cdot x \cdot \ldots \cdot x}_{n\text{ mal}}. \]

Für \(x \neq 0\) definieren wir außerdem \[ \begin{align*} x^{-n} \;&\mathrel{:=}\; \frac{1}{x^n}, \\[0.5em] x^0 \;&\mathrel{:=}\; 1. \end{align*} \]

Damit ergeben sich die folgenden Regeln für das Rechnen mit Potenzen, die wir hier nicht beweisen werden. Sie ergeben sich alle direkt aus der Definition.

Für \(a,b \in \R_{\neq 0}\) und \(n, m \in \Z\) gilt: \[ \begin{align*} a^na^m \;&=\, a^{n + m} \\[0.5em] (a^n)^m \;&=\, a^{nm} \\[0.5em] a^nb^n \;&=\, (ab)^n \end{align*} \]

Beweis zur Übung

Für alle \(c,d \in \R_{> 0}\) und \(k \in \N\) gilt:

\[c < d \Leftrightarrow c^k < d^k\]

bzw.

\[c \leq d \Leftrightarrow c^k \leq d^k\]

Beweis

Folgt durch mehrmalige Anwendung von auto (d) und (b):

\(\Rightarrow\)-Richtung:
\(\begin{align*} c<d &\Rightarrow (c^2 < cd) \and (cd < d^2) &\Rightarrow c^2 < d^2\\ &\Rightarrow (c^3 < c^2d) \and (c^2d < d^3) &\Rightarrow c^3 < d^3\\ &\Rightarrow (c^4 < c^3d) \and (c^3d < d^4) &\Rightarrow c^4 < d^4\\ &\Rightarrow \ \ldots \end{align*}\)

\(\Leftarrow\)-Richtung:
Beweis funktioniert analog zur \(\Rightarrow\)-Richtung, wenn mit jeweils mit \(c^{-1}\) statt \(c\) und \(d^{-1}\) statt \(d\) multipliziert wird.

Der \(\leq\)-Fall folgt analog.

Es gibt noch ein weiteres spezielles Produkt, die sogenannte Fakultät, die wir im nächsten Kapitel sehr häufig nutzen werden.

Für \(n \in \N_0\) definieren wir die Fakultät von \(n\) als \[ n! \,\mathrel{:=}\, \prod_{k=1}^n k \,=\, 1 \cdot 2 \cdot 3 \cdot \ldots \cdot n\]

Nach auto ergibt sich damit insbesondere \(0! = 1\).

Die Fakultät hat in der Kombinatorik eine wichtige Bedeutung: Sie gibt die Anzahl an Reihenfolgen an, in die wir eine \(n\)-elementige Menge anordnen können. Treten zum Beispiel beim Pferderennen \(6\) Pferde an, gibt es \(6! = 720\) Möglichkeiten, in denen die Pferde ins Ziel einlaufen können (wenn wir ausschließen, dass zwei Pferde gleichzeitig ankommen können): Für den Sieger gibt es \(6\) Varianten, für den Zweitplatzierten bleiben anschließend noch \(5\) Möglichkeiten, das ergibt \(6\cdot5 = 30\) Möglichkeiten für die ersten 2 Plätze. Für den Drittplatzierten bleiben, nachdem die ersten zwei feststehen, noch \(4\) Kandidaten übrig, was insgesamt \(6\cdot5\cdot4 = 120\) Möglichkeiten für die ersten 3 Plätze ergibt. Führt man die Überlegung fort, kommt man insgesamt auch \(6! = 6\cdot 5\cdot 4\cdot 3\cdot 2\cdot 1 = 720\) Möglichkeiten.

Die Werte der Fakultät wachsen relativ schnell. Wir werden später noch das Wachstum von \(n!\) mit dem von anderen Funktionen wir \(n^2\) oder \(2^n\) vergleichen.

\[ \begin{align*} 1! &= 1\\ 2! &= 2\\ 3! &= 6\\ 4! &= 24\\ 5! &= 120\\ 6! &= 720\\ 7! &= 5040\\ 8! &= 40320\\ 9! &= 362880\\ 10! &= 3628800\\ 20! &= 2432902008176640000\\ \end{align*} \]

Für \(n, k \in \N_0\) definieren wir den Binomialkoeffizienten \[ {n \choose k} := \begin{cases} \frac{n!}{(n-k)! \cdot k!} \,=\, \frac{n \cdot (n-1) \cdot \ldots \cdot (n-k+1)}{k \cdot (k-1) \cdot \ldots \cdot 1} &\text{für } n \ge k \\[0.5em] 0 &\text{für } n < k \end{cases} \]

Der Binomialkoeffizient hat in der Kombinatorik genauso wie die Fakultät eine wichtige Bedeutung. So gibt \({n \choose k}\) die Anzahl an Möglichkeiten an, wie man \(k\) Elemente aus einer \(n\)-elementigen Menge auswählen kann.

Nehmen wir beispielsweise an, wir hätten in einer Übungsgruppe 10 Studierende, die wir mit \(1\) bis \(10\) durchnummerieren. Nach Abgabe des ersten Zettels sollen zwei von ihnen eine Aufgabe vorrechnen. Der Tutor wählt diese zwei zufällig aus. Dann gibt es \({10 \choose 2} = 45\) Möglichkeiten, welche Studierenden drankommen könnten. Diese kann man noch überschaubar aufzählen:

Möglichkeiten

\[\begin{array}{ccccc} (1,2) &(1,3) &(1,4) &(1,5) &(1,6)\\ (1,7) &(1,8) &(1,9) &(1,10) &(2,3)\\ (2,4) &(2,5) &(2,6) &(2,7) &(2,8)\\ (2,9) &(2,10) &(3,4) &(3,5) &(3,6)\\ (3,7) &(3,8) &(3,9) &(3,10) &(4,5)\\ (4,6) &(4,7) &(4,8) &(4,9) &(4,10)\\ (5,6) &(5,7) &(5,8) &(5,9) &(5,10)\\ (6,7) &(6,8) &(6,9) &(6,10) &(7,8)\\ (7,9) &(7,10) &(8,9) &(8,10) &(9,10) \end{array}\]

Die Formel begründet sich wie folgt: \(n!\) sind die möglichen Reihenfolgen, alle Elemente der Menge anzuordnen. Für die Auswahl von \(k\) Elementen interessiert uns aber nicht die Reihenfolge der \(k\) Elemente, also teilt man durch die Anzahl an Möglichkeiten, wie man \(k\) anordnen kann (\(k!\)). Außerdem interessiert uns auch nicht die Reihenfolge der \(n - k\) nicht ausgewählten Elemente, also teilt man ebenfalls durch deren Anordnungsmöglichkeiten (\((n-k)!\)). Damit ergibt sich also

\[ {n \choose k} = \frac{n!}{(n-k)!\cdot k!}\]

Alternativ kann man die Erklärung auch mit den angeordneten Möglichkeiten der \(k\) Elemente starten: Für das erste Element gibt es \(n\) Möglichkeiten zur Auswahl, für das zweite dann noch \((n - 1)\), usw. Also insgesamt \(n \cdot (n - 1) \cdot \ldots \cdot (n - k + 1)\) angeordnete Möglichkeiten. Nun interessiert uns wieder nicht die Reihenfolge der ausgewählten \(k\) Elemente, deswegen sind für uns immer jeweils \(k!\) dieser Möglichkeiten identisch, da sie nur anders angeordnet sind. Daher wird noch durch \(k!\) geteilt:

\[{n \choose k} = \frac{n \cdot (n-1) \cdot \ldots \cdot (n-k+1)}{k!}\]

Es lässt sich leicht zeigen, dass beide Formeln identisch sind.

Das vorherige Beispiel zeigt die Bedeutung des Binomialkoeffizienten in der abzählenden Kombinatorik, bei der es darum geht, die Anzahl günstiger Ergebnisse aus einer endlichen Menge möglicher Ergebnisse zu bestimmen. Abzählende Kombinatorik ist ein Vorläufer der Wahrscheinlichkeitsrechnung und wurde im 17 Jahrhundert entwickelt, um den Ausgang von Glücksspielen vorherzusagen. Der folgende Satz fasst einige Ergebnisse zusammen.

Die Anzahl der Möglichkeiten für die Auswahl von \(k\) Elementen einer \(n\)-elementigen Menge für \(k,n\in\N_0\) ist:

\[ \begin{array}{l|c|c} & \mbox{Anordnung im } k-\mbox{Tupel} & \mbox{keine Anordnung} \\\hline \mbox{mit Zurücklegen} & n^k & \binom{n+k-1}{k} \\ \mbox{ohne Zurücklegen} & \frac{n!}{(n-k)!} & \binom{n}{k} \end{array} \]

Beweis

Zunächst sollen die gezogenen Elemente von links nach rechts in einem \(k\)-Tupel abgelegt werden.

Wenn die Elemente nach jedem Zug wieder in die Menge zurückgelegt werden können, dann hat man

\[\left.\begin{array}{ll} \text{bei der 1. Komponente} & : n \text{ Möglichkeiten} \\ \text{bei der 2. Komponente} & : n \text{ Möglichkeiten} \\ {\vdots} & {\vdots} \\ \text{bei der $k$. Komponente} & : n \text{ Möglichkeiten} \end{array}\right\} \;\; \underbrace{n\cdot n \cdot \ldots \cdot n\strut}_{k \,\mathrm{ mal}} \;=\;n^k \]

Wenn die Elemente nach jedem Zug nicht wieder in die Menge zurückgelegt werden können, dann hat man

\[\left.\begin{array}{ll} \text{bei der 1. Komponente} & : n \text{ Möglichkeiten} \\ \text{bei der 2. Komponente} & : n-1 \text{ Möglichkeiten} \\ {\vdots} & {\vdots} \\ \text{bei der $k$. Komponente} & : n-(k-1) \text{ Möglichkeiten} \end{array}\right\} \;\; =\;\frac{n!}{(n-k)!} \]

Wenn die Reihenfolge der gezogenen Elemente keine Rolle spielt, können wir die Argumentation aus dem verherigen Beispiel nutzen. Für den Fall ohne Zurücklegen haben wir im Beispiel bereits zwei Beweisansätze gesehen. Damit bleibt noch der Fall mit Zurücklegen. In diesem Fall nehmen wir an, dass wir \(n\) Behälter, man spricht in der Kombinatorik oft von Urnen, in denen sich jeweils mindestens \(k\) identische Kugeln befinden. Wir können nun entscheiden, wie wir unsere \(k\) Elemente ziehen. Dazu ziehen wir \(i_1\) aus der ersten Urne, \(i_2\) aus der zweiten, usw. Es muss dann gelten \(i_1+i_2+...+i_n=k\). Man könnte das Problem auch so formulieren, dass man zwischen zwei Urnen, also z.B. den Urnen \(j\) und \(j+1\) \(i_j\) identische Symbole einfügt. Dies entspricht gerade der Verteilung von \(k\) identischen Symbolen auf \(n-1\) Lücken. Wenn man dies als eine Sequenz darstellt, bei der die Reihenfolge der Urnen fest vorgegeben ist und die \(k\) identischen Symbole dazwischen zugeordnet werdne können, so haben wir insgesamt \(n-1+k\) Elemente, aus denen \(k\) ausgewählt werden. Diese Anzahl ist aber gerade \(\binom{n+k-1}{k}\).

Beim Fußballtoto müssen \(13\) Spiele getippt werden. Pro Spiel gibt es \(3\) Möglichkeiten zu tippen, \(1\) Heimsieg, \(0\) unentschieden und \(2\) Auswärtssieg. Damit gibt es \(3^{13} = 1594323\) mögliche Tipps.

Beim Lottospiel müssen \(6\) aus \(49\) Zahlen ausgewählt werden. Die Reihenfolge der Auswahl spielt natürlich keine Rolle. Damit gibt es \(\binom{49}{6} = 13983816\) Möglichkeiten

Wenn zusätzlich noch die Superzahl zum Gewinn des Jackpots richtig sein soll, so gibt es \(\binom{49}{6}\binom{10}{1} = 139838160\) Möglichkeiten

Daraus folgt auch, dass die Wahrscheinlichkeit für \(6\) richtge Zahlen und eine falsche Superzahl ungefähr \(\left(\binom{49}{6}\right)^{-1}\frac{9}{10} \approx 1/15537573 \approx 0.000000064360\) ist.

Wenn wir beim Würfeln mit \(3\) Würfeln eine möglichst hohe dreistellige Zahl bilden sollen, so gibt es \(\binom{6+3-1}{3} = \binom{8}{3} = 56\) Möglichkeiten.

Wenn man bei einem Autorennen mit \(20\) Teilnehmenden die ersten \(3\) Plätze tippen möchte, so gibt es \(\frac{20!}{(20-3)!} = \frac{20!}{17!} = 6840\) Möglichkeiten.

Für Binomialkoeffizienten gilt eine nützliche Gleichheit:

\[\forall n,k \in \N_0 :\, {n \choose k} + {n \choose {k + 1}} = {n + 1 \choose k + 1}\]

Beweis als Übung

Anschaulich ergibt sich mit dem obigen Satz das sogenannte Pascalsche Dreieck nach Blaise Pascal:

\[\begin{array}{ccccccccc} & & & & \displaystyle{0 \choose 0} & & & &\\ & & & \displaystyle{1 \choose 0}& & \displaystyle{1 \choose 1}& & &\\ & & \displaystyle{2 \choose 0}& & \displaystyle{2 \choose 1} & &\displaystyle{2 \choose 2} & &\\ &\displaystyle{3 \choose 0} & &\displaystyle{3 \choose 1} & & \displaystyle{3 \choose 2} & & \displaystyle{3 \choose 3}&\\ \displaystyle{4 \choose 0} & &\displaystyle{4 \choose 1} & & \displaystyle{4 \choose 2} & & \displaystyle{4 \choose 3}& & \displaystyle{4 \choose 4} \end{array}\]

Für den rechten und linken Schenkel des Dreiecks ist jeder Binomialkoeffizient jeweils \(1\) und jeder Eintrag in der Mitte des Dreiecks ergibt sich aus der Summe der beiden darüber liegenden. Somit ergeben sich insgesamt die Einträge:

\[\begin{array}{ccccccccc} & & & & 1 & & & &\\ & & & 1& & 1& & &\\ & & 1& & 2 & &1 & &\\ &1 & &3 & & 3 & & 1&\\ 1 & &4 & & 6 & & 4& & 1 \end{array}\]

Das Dreieck lässt sich hiermit sehr einfach nach unten für höhere Binomialkoeffizienten erweitern. Wenn man ein kleines schwarzes Dreieck für jeden ungeraden Eintrag im Pascalschen Dreieck zeichnet, ergibt sich eine Struktur, die auch als Sierpinski-Dreieck bekannt ist, hier gezeigt bis \(n = 15\):

../images/Sierpinski.svg

Mithilfe von Binomialkoeffizienten können wir eine Verallgemeinerung der binomischen Formel \((a + b)^2 = a^2 + 2ab + b^2\) beweisen, die wir im Laufe der Vorlesung häufiger benötigen werden:

Für \(a,b\in \R\) und \(n \in \N\) gilt:

\[(a + b)^n = \sum_{k = 0}^n {n \choose k} a^{n-k}b^k.\]

Beweis

Beweis per vollständiger Induktion:

Induktionsanfang (\(n = 1\)):

\[(a + b)^1 = \displaystyle{1 \choose 0}a + \displaystyle{1 \choose 1}b = a + b.\]

Induktionsvoraussetzung: Wir nehmen an, folgende Aussage gilt für ein \(n \in \N\):

\[(a + b)^n = \sum_{k = 0}^n \displaystyle{n \choose k} a^{n-k}b^k.\]

Induktionsschritt (\(n \rightarrow n + 1\)):

\[(a + b)^{n + 1} = (a + b)(a + b)^{n} \stackrel{IV}{=} (a + b)\sum_{k = 0}^n \displaystyle{n \choose k} a^{n-k}b^k = \sum_{k = 0}^n \displaystyle{n \choose k} a^{n-k + 1}b^k + \sum_{k = 0}^n \displaystyle{n \choose k} a^{n-k}b^{k + 1}.\]

Die beiden Summen betrachten wir einmal in ausführlicher Form:

\[\begin{array}{clccccc} \sum_{k = 0}^n \displaystyle{n \choose k} a^{n-k + 1}b^k & = \displaystyle{n \choose 0}a^{n + 1} + &\displaystyle{n \choose 1}a^{n}b + &\displaystyle{n \choose 2}a^{n - 1}b^2 + \ldots + &\displaystyle{n \choose n}ab^n&\\ \sum_{k = 0}^n \displaystyle{n \choose k} a^{n-k}b^{k + 1} & = &\displaystyle{n \choose 0} a^{n}b + &\displaystyle{n \choose 1}a^{n - 1}b^2 + \ldots + &\displaystyle{n \choose n - 1} ab^n& + \displaystyle{n \choose n} b^{n+1} \end{array}\]

Es gilt

\[\displaystyle{n \choose 0} = 1 = \displaystyle{n + 1 \choose 0}\]

und genauso

\[\displaystyle{n \choose n} = 1 = \displaystyle{n + 1 \choose n + 1}.\]

Nach auto können wir außerdem die Terme, die jeweils untereinander stehen zusammenfassen, da z.B.:

\(\displaystyle{n \choose 1} + \displaystyle{n \choose 0} = \displaystyle{n + 1 \choose 1}\)

\(\displaystyle{n \choose 2} + \displaystyle{n \choose 1} = \displaystyle{n + 1 \choose 2}.\)

Somit folgt zusammengefasst:

\[(a + b)^{n + 1} = \sum_{k = 0}^n \displaystyle{n \choose k} a^{n-k + 1}b^k + \sum_{k = 0}^n \displaystyle{n \choose k} a^{n-k}b^{k + 1} = \sum_{k = 0}^{n + 1}\displaystyle{n + 1\choose k}a^{(n + 1)-k}b^{k}.\]

Damit gilt die Aussage für \(n + 1\) und somit für alle \(n \in \N\).

Damit kann man die Vorfaktoren einer allgemeinen binomischen Formel einfach aus dem Pascalschen Dreieck bestimmen. Für \(n = 4\) ist die Zeile im Dreieck: \((1,4,6,4,1)\), damit ergibt sich also: \((a + b)^4 = a^4 + 4a^3b + 6a^2b^2 + 4ab^3 + b^4\).

Es folgen zwei nützliche Ungleichungen, die wir häufig nutzen werden, wenn wir es mit Potenzen zu tun haben, bei denen der Exponent variabel ist:

Für alle \(x \in \R\) mit \(x \geq -1\) und alle \(n \in \N_0\) gilt \[(1 + x)^n \geq 1+nx\]

Beweis

Per Induktion über n.

Induktionsanfang \(n=0\):
\((1 + x)^0 = 1 = 1 + 0 \cdot x\) und damit auch \((1 + x)^0 \geq 1 + 0 \cdot x.\)

Induktionsvoraussetzung:
Wir nehmen an, dass \((1+x)^n \ge 1 + nx\) für ein beliebiges \(n \in \N_0\) gilt.

Induktionsschritt \(n \to n+1\):
Mit \(1+x \geq 0\) folgt \[\begin{aligned} (1 + x)^{n + 1} & = (1 + x) (1 + x)^n\\ & \stackrel{IV}{\geq} (1 + x) (1 + n x)\\ & = 1 + n x + x + n x^2\\ & = 1 + (n + 1) x + n x^2\\ & \geq 1 + (n + 1) x \qquad\qquad \text{(da } n \geq 0 \text{ und } x^2 \geq 0 \text{)}\end{aligned}.\]

Sie können zur Übung einmal versuchen, die Bernoullische Ungleichung für \(x \geq 0\) mit dem Binomischen Lehrsatz zu beweisen. Die folgende zweite nützliche Abschätzung folgt ebenfalls direkt aus dem Binomischen Lehrsatz. Den Beweis überlassen wir Ihnen zur Übung.

Für alle \(x \in \R\) mit \(x \geq 0\) und alle \(n \in \N\) mit \(n \geq 2\) gilt \[(1 + x)^n \geq \frac{n^2x^2}{4}.\]

Beweis als Übung

Komplexe Zahlen

Zuletzt wollen wir noch eine Zahlenmenge vorstellen, die man in der Regel noch nicht aus der Schule kennt. Die komplexen Zahlen \(\C\) sind eine sehr nützliche Erweiterung der reellen Zahlen (also \(\R \subset \C\)), die in vielen Bereichen Anwendung findet, wie zum Beispiel in der Signalverarbeitung, der Computergraphik oder der Physik. Außerdem werden wir sehen, dass manche Gesetzmäßigkeiten in der Analysis erst ihre volle Aussagekraft erhalten, wenn wir sie im komplexen Zahlenbereich betrachten. Beginnen wir also mit der Definition von \(\C\).

Wir definieren die Menge der komplexen Zahlen \(\C\) als \[\C \;\mathrel{:=}\; \set{ (a,b) \in \R \times \R }\]

Für alle \(z = (a,b) \in \C\) nennen wir \(\mathrm{Re}(z) := a\) den Realteil von \(z\) und \(\mathrm{Im}(z) := b\) den Imaginärteil von \(z\).

Wir können \((a,0)\in\C\) mit \(a\in\R\) identifizieren, so dass \(\R\) als Teilkörper von \(\C\) angesehen werden kann.

Die Menge \(\C\) bildet mit folgender Addition und Multiplikation (für \(z_1=(a_1,b_1), z_2=(a_2,b_2)\)) \[ \begin{eqnarray*} z_1 + z_2 &:=& (a_1 + a_2,\, b_1 + b_2)\\[0.5em] z_1 \cdot z_2 &:=& (a_1 a_2 - b_1 b_2,\, a_1 b_2 + a_2 b_1) \end{eqnarray*} \] einen Körper (auf der rechten Seite der Definition wurde die übliche Addition und Multiplikation der reellen Zahlen genutzt).

Das Null-Element ist \((0,0)\), das Eins-Element ist \((1,0)\).

Das negative Element zu \((a,b)\) und das inverse Element zu \((a,b) \neq (0,0)\) sind \[ \begin{eqnarray*} -(a,b) &=& (-a, -b) \\[0.5em] (a,b)^{-1} &=& \left(\frac{a}{a^2 + b^2}, \frac{-b}{a^2 + b^2}\right) \end{eqnarray*} \]

Beweis als Übung

Da wir bereits gezeigt haben, dass das Nullelement, Einselement, negative Element und inverse Element in jedem Körper eindeutig sind, genügt es diese anzugeben und Sie müssen nun nur noch die Körpereigenschaften von \(\C\) mithilfe der Körpereigenschaften von \(\R\) nachweisen.

Häufig sieht man auch die Schreibweise \((a,b) = a + \i b\), wobei \(\i\) die sogenannte imaginäre Einheit ist und als Lösung von \(x^2 = -1\) definiert wird. Damit ergeben sich die oben angegebenen Definitionen für Addition und Multiplikation auf ganz natürliche Weise:

\[ \begin{align*} (a_1, b_1) + (a_2, b_2) &= a_1 + \i b_1 + a_2 + \i b_2 \\ &= (a_1 + a_2) + \i (b_1 + b_2) \\ &= (a_1 + a_2, b_1 + b_2)\\[1em] (a_1, b_1) \cdot (a_2, b_2) &= (a_1 + \i b_1)(a_2 + \i b_2) \\ &= a_1 a_2 + \i a_1 b_2 + \i a_2 b_1 + \i^2 b_1 b_2 \\ &= a_1 a_2 - b_1 b_2 + \i (a_1 b_2 + a_2 b_1)\\ &= (a_1 a_2 - b_1 b_2, a_1 b_2 + a_2 b_1) \end{align*} \]

Beide Schreibweisen haben ihre Vorteile: Mit der imaginären Einheit lässt sich leichter rechnen, da sich hier die Multiplikation aus der reellen Multiplikation ergibt. Die \((a,b)\)-Schreibweise lässt uns die komplexen Zahlen als zweidimensionale Vektoren interpretieren, die sich besonders gut zur Visualisierung komplexer Zahlen eignet. Dabei nutzen wir die zweidimensionale Ebene: Auf der horizontalen Achse, die auch als reelle Achse bezeichnet wird, geben wir den Realteil der komplexen Zahl an und auf der vertikalen Achse, welche auch imaginäre Achse genannt wird, geben wir ihren Imaginärteil an. Damit können wir komplexe Zahlen \(z\) als Punkte in der sogenannten komplexen Ebene visualisieren und die Addition wird hierbei zu einer Vektoraddition. Probieren Sie dies gerne in den beiden folgenden Demos aus.

Demo: Komplexe Zahlenebene

Komplexe Zahlen können in einer 2D-Ebene dargestellt werden. Dabei wird auf der horizontalen Achse der Realteil und auf der vertikalen Achse der Imaginärteil abgetragen. Bewegen Sie die komplexe Zahl \(z_1\) und beobachten Sie, wie sich Real- und Imaginärteil verändern.

Demo: Komplexe Addition

Die Addition zweier komplexer Zahlen können wir in der komplexen Ebene als 2D-Vektoraddition interpretieren. Bewegen Sie die komplexen Summanden \(z_1\) und \(z_2\) und beobachten Sie, wie sich die Summe verändert.

Wir haben bereits angegeben, dass \((\C,+,\cdot)\) ein Körper ist. Aber lässt sich dieser Körper auch ordnen und damit alle Folgerungen aus den Ordnungseigenschaften auf \(\C\) übertragen?

\((\C,+,\cdot)\) ist kein geordneter Körper.

Beweis

Wir führen einen Widerspruchsbeweis:

Angenommen, \(\C\) wäre ein geordneter Körper, dann gibt es eine Menge positiver komplexer Zahlen \(P\) und es gilt entweder \((0,1) = i \in P\) oder \(i \notin P\).

Nehmen wir an, \(i\) ist positiv. Dann muss das Produkt zweier positiver Zahlen nach O3 auch positiv sein, also müssen auch \(i^2 = -1\) und \((-1)^2 = 1\) positiv sein. Dies widerspricht aber der Eigenschaft O1, nach der nur entweder \(1\) oder \(-1\) positiv sein kann (↯).

Wenn wir annehmen, dass \(i\) negativ ist, dann ist \(-i\) positiv. Damit sind erneut \((-i)^2 = (-1)^2(i^2) = -1\) und \((-1)^2 = 1\) positiv, was auf den selben Widerspruch führt (↯).

\(\C\) lässt sich also nicht ordnen.

Damit können wir zwei komplexe Zahlen also im Allgemeinen nicht mit \(z_1 < z_2\) ordnen. Wie wir bereits bei der auto erwähnt haben, lässt sich aber auch auf manchen ungeordneten Körpern eine Metrik definieren, mit der wir den Abstand zwischen zwei komplexen Zahlen bestimmen können. Dazu führen wir die komplexe Konjugation ein, mit deren Hilfe wir den Betrag einer komplexen Zahl definieren:

Wir definieren die komplex Konjugierte \(\overline{z}\) einer komplexen Zahl \(z = (a,b) = a + \i b \in \C\) als \[\overline{z} \mathrel{:=} (a,-b) = a - \i b.\]

Darüber hinaus definieren wir den (Absolut-)Betrag von \(z \in \C\) als: \[\abs{z} \mathrel{:=} \sqrt{z \overline{z}} = \sqrt{a^2 + b^2}.\]

Für beliebige \(z_1, z_2 \in \C\) definiert \(d(z_1, z_2) = \abs{z_1 - z_2}\) eine Metrik auf \(\C\).

Außerdem gelten für alle \(z_1, z_2 \in \C\) die folgenden Eigenschaften für die komplexe Konjugation:

Beweis zur Übung

Anders als wir es von reellen Zahlen gewöhnt sind, gilt hier bei einem Imaginärteil \(b \neq 0\): \[z \cdot z = z^2 = (a,b)^2 = a^2 + 2abi -b^2 \neq a^2 + b^2 = |z|^2,\] also \(z^2 \neq |z|^2\). Insbesondere ist \(z^2\) im Allgemeinen komplex.

Der Betrag einer komplexen Zahl ist stets reell und somit lassen sich Beträge komplexer Zahle ordnen. Für den weiteren Verlauf der Vorlesung haben wir uns, anders als viele Lehrbücher, dagegen entschieden, alle Sätze und Definitionen direkt für komplexe Zahlen einzuführen und anschließend den reellen Spezialfall zu betrachten. Wir werden umgekehrt für den Großteil der Vorlesung mit reellen Zahlen arbeiten und nur ab und zu auf den allgemeineren komplexen Fall hinweisen. Hier hilft uns der Betrag, denn wenn alle Größenvergleiche in Sätzen und Definitionen nur in Verbindung mit Beträgen vorkommen, lassen sich die Schlussfolgerungen meist sehr einfach auf \(\C\) erweitern.

Eine besondere Bedeutung haben komplexe Zahlen mit \(|z| = 1\). Stellen wir diese auf der komplexen Ebene dar, liegen sie auf einem Einheitskreis um den Ursprung. Wenn wir zwei komplexe Zahlen \(z_1, z_2\) mit \(|z_1| = |z_2| = 1\) multiplizieren, ergibt sich für das Produkt:

\[|z_1\cdot z_2|^2 = (z_1\cdot z_2) \overline{(z_1\cdot z_2)} = (z_1\cdot z_2) (\overline{z_1}\cdot \overline{z_2}) = (z_1\cdot \overline{z_1}) (z_2 \cdot \overline{z_2}) = |z_1|^2|z_2|^2 = 1.\]

Das Produkt liegt also ebenfalls auf dem Einheitskreis. In der folgenden Demo können Sie mit solchen Produkten experimentieren und werden dabei eventuell etwas feststellen:

Demo: Komplexe Multiplikation

Komplexe Zahlen mit \(|z| = 1\) liegen in der komplexen Ebene auf dem Einheitskreis. Bewegen sie die beiden Faktoren und beobachten Sie, wie sie das Produkt verändert. Was stellen Sie fest?

Das komplexe Produkt scheint einer Drehung zu entsprechen, wobei der Winkel zwischen den beiden Faktoren mit der reellen Achse addiert wird. Beispielsweise hat \(i\) einen Winkel von \(90^\circ\) zur reellen Achse, \(i^2 = -1\) einen Winkel von \(90^\circ + 90^\circ = 180^\circ\) und \((-1)i = -i\) einen Winkel von \(180^\circ + 90^\circ = 270^\circ\). Auch für andere Prdukte und Winkel sieht es optisch so aus, als würde das komplexe Produkt einer Drehung entsprechen. Dies ist natürlich noch kein Beweis, wir werden aber im Laufe der Veranstaltung noch zeigen, warum dies immer gilt.

Betrachten wir eine allgemeine Komplexe Zahl \(z = a + ib\) mit \(|z| = \sqrt{a^2 + b^2} = r\), so ergibt sich

\[\begin{align*}z &= a + ib = r\left(\frac{a}{r} + i\frac{b}{r}\right) = r(\hat{a} + i\hat{b}) = r\hat{z}\\ |\hat{z}|^2 &= \left|\frac{a}{r} + i\frac{b}{r}\right|^2 = \frac{a^2 + b^2}{r^2} = 1\end{align*}\]

Wir können also eine beliebige komplexe Zahl über ihren Betrag (Abstand zum Ursprung) und eine andere komplexe Zahl \(\hat{z}\), die in der komplexen Ebene auf dem Einheitskreis liegt, darstellen. Für ein allgemeines Produkt komplexer Zahlen \(z_1 = r_1\hat{z}_1, z_2 =r_2\hat{z}_2\) ergibt sich:

\[\begin{align*}z_1z_2 &= r_1\hat{z}_1r_2\hat{z}_2 = (r_1r_2)(\hat{z}_1\hat{z}_2)\\ |z_1z_2| &= r_1r_2\underbrace{|\hat{z}_1\hat{z}_2|}_{=1} = r_1r_2 \end{align*}\]

Wir können also beliebige Produkte komplexer Zahlen auf Einheitskreisprodukte zurückführen. Der Betrag des Produkts entspricht dabei dem Produkt der Einzelbeträge. Außerdem addiert sich der Winkel der Faktoren zum Gesamtwinkel des Produkts. Letzteres können wir hier noch nicht beweisen, holen dies aber später in Kapitel 4 nach.

Folgen & Reihen

Viele Verfahren zur Lösung realer Probleme sind sogenannte iterative Algorithmen. Dabei startet man mit einem groben Schätzwert für die Lösung und berechnet darauf aufbauend eine zweite, (im Idealfall) bessere Schätzung. Dieses Vorgehen wiederholt (iteriert) man so lange, bis man schließlich bei einer zufriedenstellend genauen Lösung ankommt. Einfache Beispiele sind die Berechnungen beliebig genauer Lösungen für Wurzeln, Logarithmen, allgemeine Potenzen (Exponent ist keine ganze Zahl), oder von Zahlen wie \(\pi\) oder \(e\). Wie können wir aber zeigen, dass ein solcher iterativer Ansatz auch wirklich zur gewünschten Lösung führt? Dem mathematischen Konzept hinter dieser Frage, dem sogenannten Grenzwert von Folgen und Reihen, werden wir uns in diesem Kapitel widmen. Folgen, Reihen und deren Grenzwerte sind eine weitere wichtige Grundlage für alle nachfolgenden Kapitel und werden Ihnen auch in anderen Vorlesungen begegnen.

Folgen und Grenzwerte

Unter einer Folge versteht man eine Abbildung, bei der jedem \(n \in \N\) ein \(a_n \in \R\) zugeordnet wird. Man schreibt für die Folge auch kurz \((a_n)\) oder \((a_n)_{n\in\N}\).

Wir bezeichnen \(n\) als den Folgenindex und \(a_n\) als die Folgenglieder von \((a_n)\).

Um eine bestimmte Folge zu definieren, geben wir eine Vorschrift zur Berechnung der Folgenglieder an.

Eine besondere Art von Folgen sind die rekursiven Folgen, bei denen eine bestimmte Anzahl erster Folgenglieder \(a_1, a_2, \ldots, a_h\) angegeben werden und sich jedes weitere Folgenglied \(a_n\) mit \(n > h\) aus den Gliedern \(a_{n-1}\) bis \(a_{n - h}\) bestimmen lässt.

Im Zusammenhang mit Folgen werden wir häufiger von dem Begriff des Unendlichen \((\infty)\) Gebrauch machen. Dieser wird nun definiert.

Die Menge \(\hat{\R} :=\R\cup \set{ -\infty, \infty}\) heißt erweiterte reelle Zahlengerade. Die zusätzlichen Elemente \(-\infty\) und \(\infty\) sind über die folgende Eigenschaft definiert:

\[\forall x \in \R :\, -\infty < x < \infty\]

Wichtig zu betonen ist, dass \(\infty\) kein Element von \(\R\) ist. Mit \(\pm \infty\) kann also auch nicht wie mit gewöhnlichen reellen Zahlen gerechnet werden. Wenn wir also schreiben “\(\ldots = \infty\)”, dann ist die linke Seite der Gleichung damit nicht reell. Wenn wir in Sätzen fordern, dass eine Lösung für eine bestimmte Gleichung existiert, so ist damit niemals die Lösung \(\pm \infty\) gemeint. Wir wollen mit “\(\ldots = \infty\)” oder auch “\(\ldots \to \infty\)” ausdrücken, dass der Term auf der linken Seite beliebig groß wird, wie in der folgenden Definition eines Grenzwerts für Folgen:

Eine Folge \((a_n)_{n \in \N}\) heißt konvergent gegen \(a \in \R\), wenn für jedes \(0 < \eps \in \R\) ein \(n_0 \in \N\) existiert, sodass \(\abs{a_n - a} < \eps\) für alle \(n \geq n_0\) gilt, oder kurz:

\[\forall \eps > 0 \; \exists n_0 \in \N \; \forall n \geq n_0 :\; \abs{a_n - a} < \eps .\]

Darüber hinaus vereinbaren wir:

  1. Eine Folge, die nicht konvergiert, nennen wir divergent.
  2. Falls \((a_n)\) gegen \(a\) konvergiert, so nennen wir \(a\) den Grenzwert von \((a_n)\) und schreiben \[ \liminf{n} a_n = a \qquad\text{oder}\qquad a_n \to a \;\text{für}\; n \to \infty . \]
  3. Eine Folge, die gegen 0 konvergiert, nennen wir Nullfolge.

Dies ist unsere erste Quantorenaussage mit drei Quantoren hintereinander. Dabei geht man von links nach rechts vor: Für jedes \(\eps >0\) müssen wir zeigen, dass ein \(n_0 \in \N\) existiert, und dann muss ab diesem \(n_0\) für jedes Folgenglied die Eigenschaft \(\abs{a_n - a} < \eps\) gelten. Wir werden hier die Konvention nutzen, dass \(\eps > 0\) auch gleichzeitig \(\eps \in \R\) impliziert, sodass wir dies nicht mehr explizit mitschreiben werden. Die Bedingung für die Folgenkonvergenz nennt man auch das \(\eps\)-Kriterium der Konvergenz. Solche \(\eps\)-Kriterien werden ab sofort immer mal wieder auch in anderen Definitionen und Sätzen vorkommen.

Das Konvergenzkriterium können wir uns gut mit dem folgenden Bild veranschaulichen:

../images/Epsilonschlauch0.svg
Bild von Ceranilo, CC BY-SA 4.0

Es muss für eine konvergente Folge stets ein \(n_0\) geben, ab dem alle Folgenglieder in dem sogenannten \(\eps\)-Schlauch um den Grenzwert \(a\) liegen. Sie können die Konvergenzaussage auch gerne mit der folgenden Demo testen:

Demo: Folgenkonvergenz

Sie können mit dem erste Slider ein \(\eps\) vorgeben und mit dem zweiten Slider das \(n_0\) einstellen. Wenn alle Folgenglieder im \(\eps\)-Schlauch sind, färbt sich die unterste Zeile grün. Sie können außerdem die Folge selbst verändern.

Demo von Andreas Lindner

Den \(n_0\)-Teil der Konvergenzaussage (\(\exists n_0 \in \N \, \forall n \geq n_0\)) kann man auch so übersetzen, dass die Aussage \(\abs{a_n - a} < \eps\) nur für endlich viele Folgenglieder nicht gilt. Manchmal liest man auch die Formulierung, dass sie für “fast alle” Folgenglieder gilt.

Wie bereits im letzten Kapitel im Bezug auf Wurzeln, Nullelemente und Suprema, interessiert uns neben der Existenz eines Grenzwerts auch dessen Eindeutigkeit. Mit anderen Worten: Ist es möglich, dass eine Folge zwei verschiedene Grenzwerte hat?

Der Grenzwert einer Folge ist, falls er existiert, eindeutig.

Beweis

Sei \((a_n)_{n \in \N}\) eine konvergente Folge. Angenommen der Grenzwert ist nicht eindeutig und es existieren zwei Grenzwerte \(a\) und \(a'\) mit \(a \neq a'\), sodass \(\liminf{n} a_n = a\) und \(\liminf{n} a_n = a'\).

Sind die Grenzwerte verschieden, dann gilt \(\abs{a - a'}/2 > 0\). Da das Grenzwertkriterium für ein beliebiges \(\eps > 0\) gilt, muss es auch für \(\eps = \abs{a - a'}/2\) (d.h. \(2\eps = \abs{a - a'}\)) gelten.

Da sowohl \(a\) als auch \(a'\) Grenzwerte sind, muss ein \(n_0\) existieren, sodass für alle \(n \ge n_0\) gilt \(\abs{a_n - a} < \eps\) und \(\abs{a_n - a'} < \eps\). Damit gilt aber auch \[ \abs{a - a'} = \abs{a - a_n + a_n - a'} \le \abs{a_n - a} + \abs{a_n - a'} < 2\eps \;\text{ für }\; n \ge n_0. \]

Dies ist eine Widerspruch zu \(2\eps = \abs{a - a'}\) (↯).

Damit folgt, dass \(a=a'\) gelten muss.

Das \(\eps\)-Kriterium kann man auch negieren und erhält damit das Kriterium für Divergenz: Eine Folge divergiert, wenn für alle \(a \in \R\) gilt:

\[\exists \eps > 0 \; \forall n_0 \in \N \; \exists n \geq n_0 :\, \abs{a_n - a} \geq \eps\]

Um die Divergenz einer Folge zu beweisen, müssen wir also ein \(\eps\) finden (die Wahl darf von \(a\) abhängen), sodass wir für jede natürliche Zahl \(n_0\) eine größere natürliche Zahl \(n\) finden, für die \(\abs{a_n - a} \geq \eps\) gilt. Alternativ kann man auch einen Widerspruchsbeweis führen und das \(\eps\)-Kriterium für Konvergenz zu einem Widerspruch führen. Im Folgenden sehen wir uns diese Varianten an zwei einfachen Beispielen an:

Die Divergenz ist im ersten Fall relativ offensichtlich. Für solche Fälle können wir einen praktischen Zusammenhang zwischen Divergenz und Nullfolgen herstellen, der manche Divergenzbeweise vereinfacht:

Ist die Folge \((a_n)\) eine Nullfolge mit \(a_n \neq 0\), dann ist die Folge \((b_n)\) mit \(b_n = \frac{1}{a_n}\) divergent.

Beweis

Da \((a_n)\) eine Nullfolge ist, existiert für alle \(\eps_a > 0\) ein \(n_0 \in \N\) und für alle \(n \geq n_0\) gilt: \[\abs{a_n - 0} = \abs{a_n} < \eps_a .\]

Aus auto(g) folgt \[\abs{\frac{1}{a_n}} > \frac{1}{\eps_a}. \tag{*}\] Die Beträge der Folgenglieder von \((b_n)\) werden also beliebig groß.

Zu zeigen ist, dass \((b_n)\) divergiert, also dass gilt \[ \forall b \in \R \; \exists \eps > 0 \; \forall n_0 \in \N \; \exists n \geq n_0 :\; \abs{b_n - b} \geq \eps. \tag{**} \]

\((*)\) gilt für alle \(\eps_a\), somit auch für \(\eps_a = \frac{1}{1 + \abs{b}}\) mit beliebigem \(b\). Daher folgt aus \((*)\): \[\abs{b_n} = \abs{\frac{1}{a_n}} > 1 + \abs{b}\] und somit \[\abs{b_n - b} \stackrel{S.2.17(e)}{\geq} \abs{\abs{b_n} - \abs{b}} > \abs{1 + \abs{b} - \abs{b}} = 1.\]

Damit haben wir gezeigt, dass die Aussage \((**)\) für \(\eps_b = 1\) gilt.

Mit diesem Satz können wir in vielen Fällen die Nullfolgeneigenschaft der inversen Folge prüfen, um die Divergenz zu beweisen. In diesen Fällen werden die Folgenglieder einer divergenten Folge beliebig groß (positiv oder negativ). Solche Folgen bezeichnet man als bestimmt divergent.

Eine Folge \((a_n)_{n \in \N}\) heißt bestimmt divergent gegen \(\infty\), wenn \(b_n = 1/a_n\) eine Nullfolge ist und ein \(n_0 \in \N\) existiert, sodass für alle \(n \geq n_0\) gilt \(a_n > 0\). Wir schreiben \[\liminf{n} a_n = \infty.\]

Analog definieren wir die bestimmte Divergenz gegen \(-\infty\), wenn \(b_n = 1/a_n\) eine Nullfolge ist und ein \(n_0 \in \N\) existiert, sodass für alle \(n \geq n_0\) gilt \(a_n < 0\). Wir schreiben \[\liminf{n} a_n = -\infty.\]

Wir könnten zum Beispiel zeigen, dass \(a_n = n^2\) bestimmt gegen \(\infty\) divergiert. Betrachtet man die Menge der Folgenglieder ist diese Menge für \((a_n)\) unbeschränkt. Da die Beschränktheit der Menge der Folgenglieder eine wichtige Rolle spielt, überträgt man die Definition auf die Folge selbst:

Wir nennen eine Folge \((a_n)_{n \in \N}\) nach oben (bzw. nach unten) beschränkt, wenn die Menge \(M = \set{a_n \with n \in \N}\) nach oben (bzw. nach unten) beschränkt ist.

Eine sowohl nach oben als auch nach unten beschränkte Folge nennen wir beschränkt.

Für beschränkte Folgen gibt es immer ein \(K \in \R\) mit \(\abs{a_n} \leq K\). Dies lässt sich einfach aus einer oberen Schranke \(K_1\) und einer unteren Schranke \(K_2\) bestimmen als \(K = \max\set{\abs{K_1}, \abs{_2}}\). Machen Sie sich dies selbst an einem Beispiel klar, denn wir werden die Ungleichung \(\abs{a_n} \leq K\) nun häufiger in den nächsten Sätzen für beschränkte Folgen benutzen. Starten wir mit einem ersten einfachen Zusammenhang zwischen Beschränktheit und Konvergenz:

Jede konvergente Folge ist beschränkt.

Beweis

Sei \(\liminf{n} a_n = a\) und \(n_0 \in \N\) so gewählt, dass \(\abs{a_n - a} < 1\) für alle \(n \geq n_0\).

Daraus folgt \(\abs{a_n} = \abs{a + a_n - a} \leq \abs{a} + \abs{a_n - a} \leq \abs{a} +1\) für alle \(n \geq n_0\).

Setze \(K \mathrel{:=} \max\set{\abs{a_1}, \abs{a_2}, \ldots , \abs{a_{n_0 -1}}, \abs{a}+1 }\), dann ist \(\abs{a_n} \leq K\), bzw. \(-K \leq a_n \leq K\) für alle \(n \in \N\) und somit ist \((a_n)\) beschränkt.

Die Kontraposition dieses Satzes lautet: Jede unbeschränkte Folge ist nicht konvergent (also divergent). Wir können also auch einen Divergenzbeweis führen, indem wir die Unbeschränktheit der Folge zeigen.

Achtung: Die Umkehrung des Satzes gilt nicht, da z. B. \(a_n = (-1)^n\) beschränkt, aber nicht konvergent ist. Wir können aber trotzdem von Beschränktheit auf Konvergenz schließen, wenn wir noch eine weitere Eigenschaft der Folge zusätzlich fordern, die Monotonie:

Eine Folge \((a_n)_{n \in \N}\) heißt

Um die Monotonie für eine gegebene Folge zu zeigen, vergleicht man also die Größe von \(a_n\) mit der von \(a_{n+1}\). Bei Folgen mit positiven Folgengliedern ist es auch oft hilfreich, hierzu \(a_{n+1}/a_n\) zu betrachten. Für eine monoton wachsende Folge muss der Quotient beispielsweise größer als \(1\) sein und für eine monoton fallende kleiner als \(1\).

Stellen wir uns eine beschränkte und gleichzeitig monotone, z.B. wachsende, Folge vor. Hier ist anschaulich klar, dass sich die Folgenglieder einem Grenzwert nähern müssen, da sie immer weiter wachsen, aber das Supremum nicht überschreiten können. Dieser Zusammenhang wird im nachfolgenden Satz bewiesen.

Jede beschränkte monotone Folge ist konvergent. Genauer formuliert:

  1. Ist \((a_n)_{n\in\N}\) monoton wachsend und nach oben beschränkt, so ist \((a_n)\) konvergent und es gilt \(\liminf{n} a_n = \sup \set{ a_n \with n \in \N }\).

  2. Ist \((a_n)_{n\in \N}\) monoton fallend und nach unten beschränkt, so ist \((a_n)\) konvergent und es gilt \(\liminf{n} a_n = \inf \set{ a_n \with n \in \N }\).

Beweis
  1. Sei \((a_n)_{n \in \N}\) eine monoton wachsende und nach oben beschränkte Folge. Da \((a_n)\) nach oben beschränkt ist, existiert ein Supremum \(a \in \R\) (nach dem Vollständigkeitsaxiom). Damit gilt durch die Monotonie \[a_1 \leq a_2 \leq \ldots \leq a_n \leq a_{n+1 } \leq \ldots \leq a .\] Es bleibt zu zeigen, dass gilt: \[\liminf{n} a_n = a .\] Sei \(\eps > 0\). Da \(a\) die kleinste obere Schranke ist, ist \(a-\eps\) keine obere Schranke. Somit gibt es ein \(n_0\) mit \(a-\eps < a_{n_0}\). Da die Folge monoton ist gilt \(a_{n_0} \leq a_n\) für \(n \geq n_0\) und da \(a\) obere Schranke ist gilt \(a_n < a\), sodass \[\abs{a-a_n} = a-a_n \leq a-a_{n_0}<\eps .\] Damit ist das Konvergenzkriterium erfüllt.

  2. Der Beweis kann analog geführt werden.

Dies ist ein besonderes Konvergenzkriterium, da hier der Grenzwert nicht bekannt sein muss. Wir müssen lediglich eine obere (oder untere) Schranke finden (nicht zwangsweise das Supremum/Infimum) und die Monotonie nachweisen. Dies ist für manche Folgen einfacher, als den Grenzwert zu bestimmen.

Zur Anwendung des letzten Satzes betrachten wir Folge \((e_n)\) mit

\[e_n = \left(1 + \frac{1}{n}\right)^n = \left(\frac{n + 1}{n}\right)^n.\]

Diese Folge ist besonders interessant, weil einerseits die Basis \((1 + 1/n)\) offensichtlich gegen \(1\) konvergiert und \(1^n = 1 \ \forall n \in \N\) gilt. Allerdings gilt auch \(\liminf{n} x^n = \infty\) für \(x > 1\). Diese beiden Eigenschaften konkurrieren bei dieser Folge gegeneinander und es ist nicht offensichtlich, ob die Folge konvergiert, oder divergiert.

Konvergenzbeweis

Mit auto können wir zeigen, dass \((e_n)\) konvergiert (auch wenn wir dadurch nicht den Grenzwert bestimmen können). Wir zeigen dazu zunächst, dass die Folge monoton wächst, also \(\frac{e_{n+1}}{e_{n}} > 1 \; \forall n \in \N\). Damit die Terme etwas übersichtlicher werden, vergleichen wir \(\frac{e_{n}}{e_{n - 1}}\) für \(n \geq 2\), was aber die identische Aussage liefert:

\[ \begin{align*} \frac{e_{n}}{e_{n-1}} &= \frac{\left(\frac{n + 1}{n}\right)^{n}}{\left(\frac{n}{n - 1}\right)^{n-1}} \\ &= \left(\frac{n + 1}{n}\right)^{n}\left(\frac{n - 1}{n}\right)^{n - 1} \\ &= \left(\frac{n + 1}{n} \cdot \frac{n - 1}{n}\right)^{n}\left(\frac{n}{n-1}\right) \\ &= \left(\frac{n^2 - 1}{n^2}\right)^n\left(\frac{n}{n-1}\right)\\ &= \left(1 - \frac{1}{n^2}\right)^n\left(\frac{n}{n-1}\right) \end{align*} \]

Für den linken Faktor können wir nun die Bernoullische Ungleichung anwenden (auto): \((1 + x)^n \geq 1 + nx\). Damit folgt:

\[\begin{align*} \frac{e_{n}}{e_{n - 1}} &= \left(1 - \frac{1}{n^2}\right)^n\left(\frac{n}{n-1}\right)\\ &\geq \left(1 - \frac{n}{n^2}\right)\left(\frac{n}{n-1}\right)\\ &= \left(\frac{n^2 - n}{n^2}\right)\left(\frac{n}{n-1}\right) = 1 \end{align*}\]

Damit ist die Folge \((e_n)\) monoton wachsend. Zur Anwendung von auto müssen wir noch die Beschränktheit von \((e_n)\) zeigen.

Dazu betrachten wir die leicht modifizierte Folge \((\bar{e}_n)\) mit \(\bar{e}_n = e_n \left(1 + \frac{1}{n}\right) = \left(1 + \frac{1}{n}\right)^{n + 1}\). Offensichtlich gilt damit \(\bar{e}_n > e_n \; \forall n \in \N\). Wir werden nun zeigen, dass \(\bar{e}_n\) monoton fällt. Somit ist \(\bar{e}_1 = 2^2 = 4\) das größte Folgenglied und \(e_n < \bar{e}_n < 4\) nach oben beschränkt.

Zeigen wir also noch, dass \(\bar{e}_n\) monoton fällt, indem wir diesmal zeigen, dass \(\frac{\bar{e}_{n-1}}{\bar{e}_{n}} > 1 \; \forall n \geq 2\). Die Umformungsschritte sind sehr ähnlich zu den letzten, daher hier nur die Kurzform:

\[ \begin{align*} \frac{\bar{e}_{n-1}}{\bar{e}_{n}} &= \frac{\left(1 + \frac{1}{n - 1}\right)^{n}}{\left(1 + \frac{1}{n}\right)^{n+1}} \\ &= \left(1 + \frac{n}{n^2 - 1}\right)^n\left(1 + \frac{1}{n+1}\right)\\ &\geq \left(1 + \frac{n^2}{n^2 - 1}\right)\left(1 + \frac{1}{n+1}\right)\\ &> \left(1 + \frac{1}{n}\right)\left(1 + \frac{1}{n+1}\right) = 1 \end{align*} \]

Die letzte Abschätzung nutzt aus, dass \(n^2 - 1 < n^2\) und damit \(\frac{n}{n^2 - 1} > \frac{n}{n^2} = \frac{1}{n}\) ist.

So kann die Beschränktheit und Monotonie von \((e_n)\) (und übrigens auch \((\bar{e}_n)\)) gezeigt werden und damit folgt nach auto, dass beide Folgen konvergieren. Die Grenzwerte kennen wir allerdings noch nicht. Aufgrund der Monotonie-Eigenschaften müssen diese aber auf jeden Fall zwischen \(e_1 = 2\) und \(\bar{e}_1 = 4\) liegen. Wir werden später noch zeigen, dass beide Folgen sogar gegen den gleichen Grenzwert konvergieren, der als die irrationale eulersche Zahl

\[e = 2.7182818284590452353602874713526624977572470936999595749669676277\ldots\]

bekannt ist.

Folge visualisieren

Der Satz eignet sich ebenfalls, um die Konvergenz von rekursiven Folgen zu beweisen. Dies war mit den bisherigen Methoden eher schwierig zu zeigen, da wir für rekursive Folgen im Allgemeinen keine direkte Formel zur Berechnung des \(n\)-ten Folgenglieds zur Verfügung haben.

Wir betrachten die rekursive Folge \((x_n)\), die als babylonisches Wurzelziehen oder als Heron-Formel bekannt ist: \[ \begin{align*} x_1 &= a\\ x_{n + 1} &= \frac{1}{2}\left(x_n + \frac{a}{x_n}\right) \end{align*} \]

Diese Folge kann man geometrisch so interpretieren, dass wir ein Rechteck der Fläche \(a\) nach und nach in ein Quadrat gleichen Flächeninhalts umwandeln. Das Startrechteck hat dabei die Seitenlängen \(x_1 = a\) und \(y_1 = a/x_1 = 1\). Offensichtlich ist der Flächeninhalt \(a\). Im folgenden Bild ist das Rechteck für \(a = 7\) gezeigt:

../images/wurzelrechteck1.svg

Da es sich noch um kein Quadrat handelt, muss eine Seite des Rechtecks zu groß und die andere zu klein sein. Also bestimmen wir den Mittelwert aus den beiden Seitenlängen

\[x_2 = \frac{1}{2}\left(x_1 + \frac{a}{x_1}\right)\]

Im Beispiel von \(a = 7\) ergibt sich somit \(x_2 = 4\). Dies ist unsere zweite Schätzung für eine Rechteckseite. Damit der Flächeninhalt bei \(a = 7\) bleibt, muss die zweite Seite die Länge \(y_2 = a/x_2 = 7/4\) haben.

../images/wurzelrechteck2.svg

Wieder stellen wir fest, dass eine Seite größer als die andere ist. Daher bestimmen wir erneut den Mittelwert und erhalten damit \(x_3 = 23/8 = 2.875\) und \(y_3 = 56/23 \approx 2.435\).

Die Frage ist nun, ob diese Folge konvergiert. Intuitiv ist klar, dass der Grenzwert \(\sqrt{a}\) sein muss, da wir uns mit jeden Schritt stärker einem Quadrat annähern. Der Konvergenzbeweis erfolgt wieder über auto: Wir zeigen also, dass \((x_n)\) nach unten beschränkt und monoton fallend ist.

Beschränktheit:
Wir zeigen, dass \((x_n)\) nach unten beschränkt ist durch \(\sqrt{a}\), also \[x_n \geq \sqrt{a} \quad \Leftrightarrow \quad x_n^2 - a \geq 0,\] denn \(x_1=a \geq \sqrt{a}\) und für \(n>1\) \[x_n^2 - a = \frac{1}{4}\left(x_{n-1} + \frac{a}{x_{n-1}}\right)^2 - a = \frac{1}{4}\left(x_{n-1} - \frac{a}{x_{n-1}}\right)^2 \geq 0\]

Monotonie:
Die Folge \((x_n)\) ist monoton fallend, denn es gilt: \[x_{n + 1} - x_{n} = \frac{1}{2}\left(x_n + \frac{a}{x_n}\right) - x_n = \frac{a}{2x_n} - \frac{x_n}{2} = \frac{a - x_n^2}{2x_n} \leq 0 .\]

Damit muss nach auto die Folge \((x_n)\) konvergieren. Wir werden nach dem nächsten Satz noch einmal auf diese Folge zurückkommen und beweisen, dass der Grenzwert \(\sqrt{a}\) ist, wie die geometrische Interpretation schon vermuten lässt.

Viele Folgen lassen sich aus anderen Folgen zusammensetzen. Betrachten wir z.B. die Folge \((a_n)\) mit \(a_n = \frac{n + 1}{n} = 1 + \frac{1}{n}\): Es liegt nahe, dass sich die Grenzwerte von \(b_n = 1\) und \(c_n = \frac{1}{n}\) addieren, und damit den Grenzwert \(a = 1 + 0 = 1\) für \((a_n)\) bilden. Solche Regeln für Kombinationen von Grenzwerten führen wir nun ein.

Seien \((a_n)_{n\in \N}\) und \((b_n)_{n \in \N}\) zwei konvergente Folgen und \(c \in \R\). Dann definieren wir:

  1. \((a_n)_{n\in \N} +(b_n)_{n \in \N} = (a_n + b_n)_{n \in \N}\)

  2. \(c \cdot (a_n)_{n\in \N} = (c \cdot a_n)_{n \in \N}\)

  3. \((a_n)_{n\in \N} \cdot (b_n)_{n \in \N} = (a_n \cdot b_n)_{n \in \N}\)

  4. \(\displaystyle\frac{(a_n)_{n \in \N}}{(b_n)_{n \in \N}} = \left( \frac{a_n}{b_n} \right)_{n\in \N}\) falls \(b_n \neq 0\) für alle \(n \in \N\)

Seien \((a_n)_{n\in \N}\) und \((b_n)_{n \in \N}\) zwei konvergente Folgen und \(c \in \R\). Dann gilt :

  1. \(\liminf{n} (a_n + b_n) = \liminf{n} (a_n) + \liminf{n} (b_n)\)

  2. \(\liminf{n} c \cdot (a_n) = c \cdot \liminf{n}(a_n)\)

  3. \(\liminf{n} (a_n) \cdot (b_n) = \liminf{n} (a_n) \cdot \liminf{n} (b_n)\)

  4. \(\liminf{n} \frac{(a_n)}{(b_n)} = \frac{\liminf{n} (a_n)}{\liminf{n}(b_n)}\) falls \(b_n \neq 0\) für alle \(n \in \N\) und \(\liminf{n} b_n \neq 0\).

Beweis

Sei \(a = \liminf{n} a_n\) und \(b = \liminf{n} b_n\).

  1. Sei \(\eps > 0\) vorgegeben, dann ist auch \(\eps /2 >0\). Da beide Folgen konvergent sind, gibt es \(n_a, n_b \in \N\) mit \(\abs{a_n-a} < \frac{\eps}{2}\) für \(n \geq n_a\) sowie \(\abs{b_n-b} < \frac{\eps}{2}\) für \(n \geq n_b\). Damit gilt für \(n \geq \max(n_a, n_b)\) \[\abs{(a_n + b_n) - (a + b)} \leq \abs{a_n - a} + \abs{b_n - b} < \frac{\eps}{2} + \frac{\eps}{2} = \eps .\]

  2. Ergibt sich aus Fall (c), wenn wir \(b_n = c\) als konstante Folge auffassen.

  3. Nach auto sind die Folgen \((a_n)\) und \((b_n)\) beschränkt. Also gibt es \(K_a, K_b \in \R\) mit \(K_a \geq \abs{a_n}\) und \(K_b \geq \abs{b_n}\) für alle \(n \in \N\). Wir definieren \(K \mathrel{:=} \max\set{K_a, K_b, 1}\). Sei nun \(\eps > 0\) vorgegeben. Da auch \(\frac{\eps}{2K} > 0\) und da beide Folgen konvergieren, gibt es \(n_a, n_b \in \N\) sodass \[ \begin{align*} \abs{a_n-a} < \frac{\eps}{2K} \;\;\text{für}\;\; n \geq n_a, \\ \abs{b_n-b} < \frac{\eps}{2K} \;\;\text{für}\;\; n \geq n_b. \end{align*} \]

    Dann gilt für alle \(n \geq \max(n_a, n_b)\) \[ \begin{align*} \abs{a_n b_n - ab} &= \abs{a_n b_n - a_n b + a_n b - ab}\\ &= \abs{a_n \cdot (b_n-b) + (a_n - a) \cdot b }\\ &\leq \abs{a_n} \cdot \abs{b_n-b} + \abs{a_n-a} \cdot \abs{b}\\ &< K \cdot \frac{\eps}{2K} + \frac{\eps}{2K} \cdot K\\ & = \eps \end{align*} \]

  4. Da \(\frac{a_n}{b_n} = a_n \cdot \frac{1}{b_n}\), können wir den Beweis auf Fall (c) zurückführen, falls \(\frac{1}{b_n} \to \frac{1}{b}\) für \(n\to\infty\) und \(b \neq 0\).

    Wegen \(b \neq 0\) ist \(\frac{\abs{b}}{2} > 0\) und es gibt ein \(n_b \in \N\), sodass für alle \(n \geq n_b\) gilt \(\abs{b_n-b} < \frac{\abs{b}}{2}\). Daraus folgt \(\abs{b_n} > \frac{\abs{b}}{2}\).

    Zu einem vorgegebenen \(\eps\) gibt es ein \(n_0 \in \N\), sodass \(\abs{b_n-b} < \frac{\eps \abs{b}^2}{2}\) für alle \(n \geq n_0\). Dann gilt auch für \(n \geq \max(n_b, n_0)\) \[ \abs{\frac{1}{b_n} - \frac{1}{b}} = \frac{\abs{b_n-b}}{\abs{b_n} \cdot \abs{b}} = \frac{1}{\abs{b_n} \cdot \abs{b}} \cdot \abs{b_n-b} < \frac{2}{\abs{b}^2} \cdot \frac{\eps \abs{b^2}}{2} = \eps \] Da \(\abs{b_n} \cdot \abs{b} > \abs{b} \frac{\abs{b}}{2}\), ist \(\left(\abs{b_n} \cdot \abs{b} \right)^{-1} < \frac{2}{\abs{b}^2}\) und die im vorletzten Schritt durchgeführte Ersetzung ist korrekt.

    Damit wurde \(\liminf{n} \frac{1}{b_n} = \frac{1}{b}\) gezeigt und die allgemeinere Aussage in (d) kann somit auf (c) zurückgeführt werden.

Sei \(a_n = \displaystyle\frac{3n^2 + 13n}{n^2 -2}\) mit \(n \in \N\). Wegen \[ a_n = \frac{3n^2 + 13n}{n^2 -2} \;=\; \frac{n^2 \left(3 + \frac{13}{n} \right)}{n^2 \left(1- \frac{2}{n^2} \right)} \;=\; \frac{3 + \frac{13}{n}}{1-\frac{2}{n^2}} \] und da \(\displaystyle\liminf{n} \frac{1}{n} = 0\), folgt aus auto(c), dass auch \[ \liminf{n} \frac{1}{n^2} = \liminf{n}\frac{1}{n}\cdot\frac{1}{n} = \left(\liminf{n} \frac{1}{n} \right)\cdot\left(\liminf{n} \frac{1}{n}\right) = 0 \cdot 0 = 0.\]

Damit gilt nach auto(a) \[ \liminf{n} \left( 3 + \frac{13}{n} \right) = 3\] sowie \[\liminf{n} \left(1 - \frac{2}{n^2} \right) = 1\] und schließlich nach auto(d) \[ \liminf{n} \frac{3 + \frac{13}{n}}{1 - \frac{2}{n^2}} = \frac{\liminf{n} \left(3 + \frac{13}{n}\right)}{\liminf{n} \left( 1 - \frac{2}{n^2} \right)} = \frac{3}{1} = 3.\]

Folge visualisieren

Achtung: Die Rechenregeln aus auto sind zwar einfach auch auf drei oder mehr Einzelfolgen übertragbar, aber nicht, wenn es sich um \(n\) Summanden/Faktoren handelt. Sonst könnte man z.B. folgern, dass \[a_n = 1 = n\cdot \frac{1}{n} = \frac{1}{n} + \frac{1}{n}+ \ldots + \frac{1}{n}\] gegen \(0\) konvergiert, was offensichtlich falsch ist. Genauso könnte man zu dem falschen Schluss kommen, dass die Folge \[e_n = \left(1 + \frac{1}{n}\right)^n = \left(1 + \frac{1}{n}\right)\left(1 + \frac{1}{n}\right)\ldots\left(1 + \frac{1}{n}\right)\] gegen \(1\) konvergiert. Die Anzahl an Summanden/Faktoren muss für jedes Folgenglied identisch sein, damit auto angewendet werden kann.

Mit den Rechenregeln aus auto kann man viele Folgengrenzwerte bestimmen, indem man sie in Teilfolgen zerlegt. Aber der Satz ist noch deutlich vielseitiger. Wir können damit zeigen, dass zwei Grenzwerte identisch sind, denn wenn \[\liminf{n}(a_n - b_n) = 0\] gilt und sowohl \((a_n)\) als auch \((b_n)\) konvergieren, folgt aus Satzteil (a), dass \[\liminf{n}a_n = \liminf{n}b_n .\]

Wir haben in Beispiel 3.5 die zwei Folgen \((e_n)\) und \((\bar{e}_n)\) betrachtet, mit \[e_n = \left(1 + \frac{1}{n}\right)^n \qquad \bar{e}_n = \left(1 + \frac{1}{n}\right)^{n + 1}.\]

Wir haben bereits bewiesen, dass beide Folgen konvergieren. Nun werden wir zeigen, dass beide Grenzwerte identisch sind, dazu betrachten wir

\[\begin{align*}e_n - \bar{e}_n &= \left(1 + \frac{1}{n}\right)^n - \left(1 + \frac{1}{n}\right)^{n+1}\\ &= \left(1 + \frac{1}{n}\right)^n\left(1 - \left(1 + \frac{1}{n}\right)\right)\\ &= e_n\left(1 - \left(1 + \frac{1}{n}\right)\right)\\ &= e_n\left(-\frac{1}{n}\right) . \end{align*}\]

Wir können nun mit auto den Grenzwert des rechten Terms bestimmen, indem wir die Grenzwerte der beiden Faktoren bestimmen. Dafür müssen beide Faktoren konvergieren. \((e_n)\) konvergiert nach Beispiel 3.5. Der rechte Faktor konvergiert gegen \(0\). Also gilt auch

\[\liminf{n}\left(e_n - \bar{e}_n\right) = 0 \stackrel{S.3.11}{\Leftrightarrow} \liminf{n} e_n = \liminf{n}\bar{e}_n .\]

Folgen visualisieren

Darüber hinaus lassen sich auch Grenzwerte rekursiver Folgen mit auto bestimmen, was mit unseren bisherigen Sätzen eher schwierig war. Für konvergente rekursive Folgen können wir ausnutzen, dass

\[\liminf{n} a_{n+1} = \liminf{n} a_n .\]

Der Beweis ist recht trivial und kann als Übung durchgeführt werden. Anschließend setzten wir links die Rekursionsformeln ein und stellen dann mithilfe von auto nach \(\liminf{n} a_n\) um. Das setzt natürlich voraus, dass \(\liminf{n} a_n\) existiert, was beispielsweise mit auto zuvor gezeigt werden kann.

Betrachten wir erneut die Wurzelfolge \((x_n)\) aus auto mit

\[\begin{align*}x_1 &= a\\ x_{n + 1} &= \frac{1}{2}\left(x_n + \frac{a}{x_n}\right) . \end{align*}\]

Wir hatten in auto bereits die Konvergenz von \((x_n)\) bewiesen, nun bestimmen wir den Grenzwert. Da wir bereits wissen, dass \(x_n\) konvergiert definieren wir

\[x := \liminf{n}x_n\]

\[\begin{align*} & & \liminf{n} x_{n+1} &= \liminf{n} x_n\\ &\ \Leftrightarrow \quad & \liminf{n} \frac{1}{2}\left(x_n + \frac{a}{x_n}\right) &= \liminf{n} x_n\\ &\stackrel{S.3.11}{\Leftrightarrow} & \frac{1}{2}\left(\liminf{n}(x_n) + \frac{a}{\liminf{n}(x_n)}\right) &= \liminf{n} x_n\\ &\ \Leftrightarrow & \frac{1}{2}\left(x + \frac{a}{x}\right) &= x\\ &\ \Leftrightarrow & x^2 + a &= 2x^2\\ &\ \Leftrightarrow & x^2 &= a\\ &\ \Leftrightarrow & x &= \pm\sqrt{a} . \end{align*}\]

Es lässt sich leicht zeigen, dass die Folgenglieder immer positiv sind und für den Grenzwert daher \(x = \sqrt{a}\) gilt.

Für das nächste nützliche Hilfsmittel benötigen wir eine Möglichkeit, Folgen und ihre Grenzwerte der Größe nach zu ordnen.

Seien \((a_n)_{n \in \N}\) und \((b_n)_{n \in \N}\) zwei konvergente Folgen mit \(a_n \leq b_n\). Dann gilt auch \(\liminf{n} a_n \leq \liminf{n} b_n\).

Beweis

Sei \(c_n = b_n - a_n\). Es genügt zu zeigen \(\liminf{n} c_n \geq 0\), da \(c_n\) nach auto konvergent ist und \(c_n \geq 0\) für alle \(n \in \N\) nach Voraussetzung gilt. Angenommen \(\liminf{n} c_n = - \eps\) für \(\eps > 0\). Dann gäbe es ein \(n_0\), sodass für alle \(n \geq n_0\) \[\abs{c_n -(-\eps)} = \abs{c_n + \eps} < \eps .\]

Dies würde bedeuten, dass \(c_n < 0\), was nach Annahme nicht gelten kann (↯).

Vorsicht: Aus \(a_n < b_n\) für alle \(n \in \N\) folgt nicht \(\liminf{n} a_n < \liminf{n} b_n\) wie zum Beispiel \(a_n = 0\) und \(b_n = \frac{1}{n}\) zeigt. Das \(\leq\) im obigen Satz ist also sehr wichtig. Mit dem vorigen Satz kann das folgende Sandwich-Theorem bewiesen werden:

Seien \((a_n)_{n \in \N}\), \((b_n)_{n \in \N}\) und \((c_n)_{n \in \N}\) Folgen, für die ein \(n_0\) existiert, sodass für alle \(n \geq n_0\) gilt \[a_n \le b_n \le c_n.\]

Wenn \((a_n)_{n \in \N}\) und \((c_n)_{n \in \N}\) konvergent sind und gegen den selben Grenzwert konvergieren, dann ist auch \((b_n)_{n \in \N}\) konvergent und es gilt: \[\liminf{n} a_n = \liminf{n} b_n = \liminf{n} c_n .\]

Beweis zur Übung

Anschaulich quetschen wir damit eine Folge zwischen zwei anderen Folgen ein, die sich beide auf den gleichen Grenzwert \(g\) zubewegen:

../images/Sandwich_lemma.svg
Quelle: Who2010, CC BY-SA 4.0, Wikimedia Commons

Wir wollen zeigen, dass für die Folge \((a_n)\) mit \(a_n = \sqrt[n]{n}\) gilt \[\liminf{n} \sqrt[n]{n} = 1 .\]

Anmerkung: Für den Beweis nutzen wir aus, dass aus auto folgt: \(a < b \Leftrightarrow \sqrt[n]{a} < \sqrt[n]{b} \quad (*)\)

Der Grenzwert kann mit dem Sandwich-Theorem nachgewiesen werden. Wir benötigen also zwei Folgen, von denen die eine kleinere Folgenglieder als \((a_n)\) und die anderen größere Folgenglieder als \((a_n)\) besitzt.

Für die untere Folge wählen wir \((u_n)\) mit \(u_n = 1\), denn es gilt \(1^n = 1 \leq n \stackrel{(*)}{\Leftrightarrow} 1 \leq \sqrt[n]{n}\).

Für die obere Folge wählen wir \((o_n)\) mit

\[o_n = 1 + 2\frac{1}{\sqrt{n}}\]

Hier ist es nicht offensichtlich, warum \(a_n \leq o_n\) gelten muss. Daher zeigen wir dies separat. Dazu nutzen wir eine Ungleichgung aus Kapitel 2.7 (auto). Nach dieser gilt für \(x \geq 0\) und \(n \geq 2\) die Abschätzung

\[(1 + x)^n > \frac{n^2x^2}{4} .\]

Mit \(x = \frac{2}{\sqrt{n}}\) folgt daraus

\[\begin{align*}&&\left(1 + \frac{2}{\sqrt{n}}\right)^n > \frac{n^2\left(\frac{2}{\sqrt{n}}\right)^2}{4} = n\\ \stackrel{(*)}{\Leftrightarrow} && \sqrt[n]{\left(1 + \frac{2}{\sqrt{n}}\right)^n} = 1 + \frac{2}{\sqrt{n}} = o_n > \sqrt[n]{n} = a_n .\end{align*}\]

Damit konnten wir zeigen, dass \(o_n > a_n\) gilt für \(n \geq 2\). Dass die Abschätzung erst ab \(n = 2\) gilt, ist unerheblich, da endlich viele Folgenglieder den Grenzwert nicht ändern. Der Grenzwert von \(o_n\) ist ebenfalls \(1\) (Beweis zur Übung).

Damit gilt insgesamt

\[1 = \liminf{n}u_n \leq \liminf{n} a_n \leq \liminf{n}o_n = 1 .\]

Daraus folgt mit dem Sandwich-Theorem

\[\liminf{n} a_n = \liminf{n} \sqrt[n]{n} = 1 .\]

Hiermit lässt sich ebenfalls leicht zeigen, dass für alle \(k \geq 1\) ebenfalls gilt

\[\liminf{n} \sqrt[n]{k} = 1 .\]

In diesem Abschnitt haben wir den Großteil der Sätze vorgestellt, mit deren Hilfe wir die Konvergenz und Divergenz von Folgen nachweisen können. Zusammenfassend geben wir hier noch einmal eine kleine Übersicht der Sätze an. Wir geben jeweils mit an, ob man für den jeweiligen Konvergenzbeweis den Grenzwert kennen muss.

Satz/Def. \(\quad\)Konvergenz\(\quad\) \(\quad\)Grenzwert?\(\quad\) \(\quad\)Divergenz\(\quad\)
auto ✔️ ja ✔️
auto ✖️ - ✔️
auto ✖️ - ✔️
auto ✔️ nein ✖️
auto ✔️ nein ✖️
auto ✔️ ja ✖️
auto ✖️ - ✔️
auto ✔️ nein ✔️

Die Tabelle enthält zur Vollständigkeit auch zwei Kriterien, die wir erst in den nächsten beiden Abschnitten formulieren werden.

Teilfolgen

Wir haben bereits ein paar Eigenschaften von beschränkten Folgen kennen gelernt. In diesem Abschnitt wollen wir den sogenannten Satz von Bolzano-Weierstraß beweisen. Dieser besagt, dass wir in jeder beschränkten Folge unendlich viele Folgenglieder so auswählen können, dass diese eine konvergente Folge ergeben. Also z.B. für \(a_n = (-1)^n\) könnten wir alle geraden oder alle ungeraden Folgenglieder auswählen. Der Satz mag auf den ersten Blick nicht sonderlich nützlich erscheinen, aber wir werden ihn in späteren Beweisen immer mal wieder benötigen und die Aussage an sich ist interessant. Definieren wir uns zunächst den Begriff der Teilfolge.

Sei \((a_n)_{n\in\N}\) eine Folge und \(n_1 < n_2 < n_3 < \dots\) eine aufsteigende unendliche Folge natürlicher Zahlen, dann heißt \((a_{n_k})_{k \in \N} = a_{n_1}, a_{n_2}, \dots\) eine Teilfolge der Folge \((a_n)_{n \in \N}\).

Für eine Teilfolge werden also nur einzelne Glieder der Folge berücksichtigt, ohne deren Reihenfolge zu ändern. Offensichtlich gilt, dass eine Teilfolge auch konvergent ist, wenn die ursprüngliche Folge schon konvergent ist, da das \(\eps\)-Kriterium direkt übertragbar ist.

Jede Teilfolge \((a_{n_k})_{k \in \N}\) einer konvergenten Folge \((a_n)_{n\in\N}\) ist konvergent und es gilt \[\liminf{k} a_{n_k} = \liminf{n} a_n = a.\]

Beweis

\[ \forall \eps > 0 \; \exists n_0 \in \N \; \forall n > n_0 :\; \abs{a_n - a_{n_0}} < \eps . \] Damit liegen nur endlich viele Glieder von \((a_n)\) außerhalb von \((a-\eps, a+\eps)\) und damit auch nur endlich viele Glieder von \(a_{n_k}.\) Da jedes \(a_{n_k}\) auch ein \(a_n\) ist, gibt es ein \(k_0 \leq n_0\), so dass \(\abs{a - a_{n_k}} < \eps\) für \(k \geq k_0\).

Interessanter wird es, wenn die ursprüngliche Folge nicht konvergent ist. Teilfolgen können hier dabei helfen, die Divergenz der ursprünglichen Folge zu beweisen.

Besitzt eine Folge \((a_n)_{n\in\N}\)

  1. eine divergente Teilfolge oder
  2. zwei konvergente Teilfolgen \((a_{n_k})_{k \in \N}\) und \((a_{n_l})_{l \in \N}\) mit \(\liminf{k} (a_{n_k}) \neq \liminf{l} (a_{n_l})\),

so ist die Folge divergent.

Beweis

Wir schreiben auto als Implikation auf: \[ \text{Folge konvergiert} \;\;\Rightarrow\;\; \text{Alle Teilfolgen konvergieren gegen den selben Grenzwert} \]

Wenn wir nun die Kontraposition formulieren (zur Erinnerung: \((A \Rightarrow B) \Leftrightarrow (\neg B \Rightarrow \neg A)\) und ein negiertes “und” wird zu einem “oder”), dann ergibt sich: \[ \text{Nicht alle Teilfolgen konvergieren oder haben nicht den selben Grenzwert} \;\;\Rightarrow\;\; \text{Folge divergiert} \]

Die Aussage dieses Satzes ist also identisch mit der des letzten Satzes, es handelt sich lediglich dessen Kontraposition.

Sei \(a_n=(-1)^n\) die untersuchte Folge. Es gibt zwei Teilfolgen \((-1)^{2n}\) und \((-1)^{2n+1}\) mit \(\liminf{n}(-1)^{2n} = 1\) und \(\liminf{n} (-1)^{2n+1} = -1\), daher ist Folge \(a_n\) divergent.

Der nächste Satz besagt, dass wir für jede beliebige Folge eine Teilfolge finden können, die entweder monoton wächst oder monoton fällt. Um den Beweis zu verstehen, nutzen wir sogenannte Gipfelpunkte einer Folge. Das sind Folgenglieder, die größer sind als alle nachfolgenden Folgenglieder. Betrachten wir dazu das folgende graphische Beispiel:

../images/gipfelpunkte.svg

Es wird anschaulich klar, warum die gelben Punkte Gipfelpunkte genannt werden: Stellen wir uns die Folge wie die Silhouette eines Berges vor, auf welche die Sonne von rechts aus parallel zum Boden scheint, dann sind Gipfelpunkte solche Punkte der Bergkette, die im Sonnenlicht liegen (weil sie höher liegen, als alle Punkte rechts von ihnen). Mit diesen Punkten kann der folgende Satz sehr anschaulich bewiesen werden.

Jede Folge enthält eine monotone Teilfolge.

Beweis

Sei \((a_n)_{n \in \N}\) eine Folge. Wir betrachten die Menge der Gipfelpunkte in \(a_n\) \(G = \set{ a_{n_1}, a_{n_2}, a_{n_3}, \ldots }\) wobei \(n_1 > n_2 > n_3 > \ldots\) und für alle \(n > n_k\) gilt, dass \(a_n \geq a_{n_k}\). Für die Menge \(G\) gibt es nun zwei Möglichkeiten:

  1. \(G\) enthält unendlich viele Elemente.
    Dann bilden die Gilfelpunkte eine monoton fallende Teilfolge, da per Konstruktion gilt \(a_{n_1} \geq a_{n_2} \geq a_{n_3} \geq \ldots\)

  2. \(G\) enthält nur endlich viele Elemente oder ist leer.
    Hier können wir eine rekursive Konstruktionsvorschrift für eine monoton steigende Teilfolge angeben:

    Sei \(l\) der Folgengliedindex des letzten Gipfelpunktes (oder 0, wenn \(G\) leer ist).
    Wir wählen \(m_1 = l + 1\).
    Da \(a_{m_1}\) kein Gipfelpunkt ist, muss es einen Index \(m_2\) geben, mit \(a_{m_2} > a_{m_1}\).
    Da \(a_{m_2}\) auch kein Gipfelpunkt ist, muss es einen Index \(m_3\) geben, mit \(a_{m_3} > a_{m_2}\).
    Da \(a_{m_3}\) auch kein Gipfelpunkt ist, muss es einen Index \(m_4\) geben, mit \(a_{m_4} > a_{m_3}\).

    Dies lässt sich unendlich fortführen, und so entsteht eine (streng) monotone wachsende Teilfolge mit \[a_{m_1} < a_{m_2} < a_{m_3} < \ldots\]

Nun haben wir alle Voraussetzungen um den Satz von Bolzano-Weierstraß zu beweisen. Wie bereits angedeutet, hilft uns der Satz auf den ersten Blick nicht um Grenzwerte von Folgen zu bestimmen, aber wir werden ihn in späteren Kapiteln noch häufiger benötigen.

Jede beschränkte Folge \((a_n)_{n \in \N}\) besitzt eine konvergente Teilfolge.

Beweis

Nach auto enthält die Folge eine monotone Teilfolge (die natürlich auch beschränkt ist, wenn die ursprüngliche Folge beschränkt ist) und nach auto ist jede beschränkte monotone Folge konvergent.

Wir haben bereits festgestellt, dass Teilfolgen von divergenten Folgen gegen unterschiedliche Grenzwerte konvergieren können. Um hier die Benennung deutlicher zu machen, nennen wir Grenzwerte von Teilfolgen Häufungspunkte.

Für eine Folge \((a_n)_{n \in \N}\) heißt \(a\) Häufungspunkt, wenn es eine Teilfolge \((a_{n_k})_{k \in \N}\) von \((a_n)_{n \in \N}\) gibt und \(\liminf{k} a_{n_k} = a\).

Der Satz von Bolzano-Weierstraß kann also auch so formuliert werden, dass jede beschränkte Folge mindestens einen Häufungspunkt besitzt. Genauso bedeuten die Sätze auto-no und auto-no, dass eine konvergente Folge genau einen Häufungspunkt besitzt, wohingegen Folgen mit mehreren Häufungspunkten divergent sind. Die Umkehrung dieser Formulierung gilt nicht. Das heißt, auch wenn genau ein Häufungspunkt existiert, muss die Folge nicht zwingend konvergieren, wie wir im nachfolgenden Beispiel zeigen.

Alternative Vollständigkeitsaxiome

Betrachten wir noch einmal eine der Mengen, mit denen wir Suprema und damit unser Vollständigkeitsaxiom motiviert hatten: \[ M_3 = \set{ \frac{n}{n + 1} \With \forall n \in \N } = \set{\frac{1}{2}, \frac{2}{3}, \frac{4}{5}, \frac{5}{6}, \frac{6}{7}, \frac{7}{8}, \ldots}. \]

Mit dem Wissen aus diesem Kapitel würden Sie die Menge nun vermutlich mit einer Folge assoziieren, deren Grenzwert das Supremum von \(M_3\) ist, und könnten diesen leicht bestimmen: \[ a_n = \frac{n}{n + 1} = \frac{1}{1 + \frac{1}{n}} \quad \Rightarrow \quad \liminf{n} a_n = \frac{1}{1 + 0} = 1. \]

Die Existenz eindeutiger Suprema für beschränkte Teilmengen von \(\R\) hatten wir in Kapitel 2.2 axiomatisch gefordert und daraus folgte, dass die reellen Zahlen (nach auto) vollständig sind. Wir hatten aber auch bereits darauf hingewiesen, dass verschiedene Formulierungen für die Vollständigkeit eines Körpers existieren, welche als Basis für das Vollständigkeitsaxiom dienen können.

In diesem Kapitel werden wir uns mit zwei häufig genutzen Alternativen beschäftigen, die beide mit Folgen zusammenhängen. In auto hatten wir aus dem Vollständigkeitsaxiom die Existenz von Quadratwurzeln gefolgert, diesen Beweis werden wir hier noch einmal analog für beide Alternativen führen.

Cauchy-Folgen

Die erste Variante der Vollständigkeit bedient sich der sogenannten Cauchy-Folgen. Diese spielen darüber hinaus eine besondere Rolle für den Konvergenznachweis, wenn der explizite Grenzwert unbekannt ist.

Eine Folge \((a_n)_{n \in \N}\) heißt Cauchy-Folge, wenn gilt: \[\forall \eps > 0 \; \exists n_0 \in \N \; \forall n > n_0 : \; \abs{a_n - a_{n_0}} < \eps .\]

Die Definition ist ganz ähnlich zu dem \(\eps\)-Kriterium für die Folgenkonvergenz, allerdings vergleichen wir hier nicht die Folgenglieder mit dem Grenzwert, sondern mit einem anderen Folgenglied \(a_{n_0}\). Anders formuliert, gilt für Cauchy-Folgen, dass man immer ein Glied \(a_{n_0}\) findet, ab dem die Folgenglieder nicht mehr als \(\eps\) voneinander abweichen, sich also beliebig nahe kommen. Damit liegt die intuitive Vermutung nahe, dass Cauchy-Folgen immer konvergieren, was wir im folgenden Satz beweisen:

Eine Folge ist genau dann konvergent, wenn sie eine Cauchy-Folge ist. Das bedeutet:

  1. Jede konvergente Folge ist eine Cauchy-Folge.

  2. Jede Cauchy-Folge ist konvergent.

Beweis
  1. Sei \((a_n)_{n \in \N}\) konvergent, sei \(\eps >0\) und sei \(a= \liminf{n} a_n\). Definiere \(\eps'=\frac{\eps}{2}\).
    Nach Definition existiert \(n_0\), sodass \(\abs{a_n - a} <\eps'\) für alle \(n \ge n_0\) und damit \[\abs{a_n - a_{n_0}} = \abs{a_n -a + a - a_{n_0}} \leq \abs{a_n - a} + \abs{a_{n_0} - a} < \eps ' + \eps ' = \eps .\] Damit ist jede konvergente Folge eine Cauchy-Folge.

  2. Wir zeigen zunächst, dass jede Cauchy-Folge beschränkt ist: Sei \((a_n)_{n \in \N}\) eine Cauchy-Folge. Dann gibt es zu \(\eps = 1\) ein \(n_0\), sodass \(\abs{a_n - a_{n_0}} < 1\) für alle \(n \geq n_0\). Daraus folgt für \(n \ge n_0\) \[ \abs{a_n} = \abs{a_{n_0} + \left( a_n - a_{n_0} \right) } \leq \abs{a_{n_0}} + \abs{a_n - a_{n_0}} < \abs{a_{n_0}} + 1. \]

    Wähle \(K = \max \set{ \abs{a_1}, \dots, \abs{a_{n_0-1}}, \abs{a_{n_0}}+1 }\), so gilt \(\abs{a_n} \leq K\) oder anders formuliert: \(-K \leq a_n \leq K \;\forall n \in \N\). Damit ist jede Cauchy-Folge beschränkt und hat nach auto eine konvergente Teilfolge.

    Als nächstes zeigen wir, dass die Cauchy-Folge gegen den Grenzwert dieser Teilfolge konvergieren muss: Sei \((a_n)_{n \in \N}\) eine Cauchy-Folge und \((a_{n_k})_{k \in \N}\) eine konvergente Teilfolge mit \(\liminf{k} a_{n_k} = a\). Sei \(\eps > 0\) und \(\eps' = \frac{\eps}{3}\). Es gibt ein \(k_0 \in \N\) mit \(\abs{a_{n_k}-a} < \eps'\) für alle \(k \geq k_0\). Ferner gibt es ein \(n_0 \in \N\) mit \(\abs{a_n - a_{n_0}} < \eps'\) für alle \(n \geq n_0\). Sei \(n \geq n_0\), dann gilt \[ a_n - a = \left( a_n - a_{n_0} \right) + \left( a_{n_0} - a_{n_k} \right) + \left( a_{n_k} - a \right), \] wobei \(k \geq k_0\) und \(n_k \geq n_0\) gewählt wird. Damit gilt dann \[ \abs{a_n - a} \leq \underbrace{ \abs{a_n - a_{n_0}} }_\text{Cauchy} + \underbrace{ \abs{a_{n_0} - a_{n_k}} }_\text{Cauchy} + \underbrace{ \abs{a_{n_k} - a} }_\text{konv. Teilfolge} < \eps' + \eps' + \eps' = \eps . \]

    Somit haben wir insgesamt gezeigt, dass jede Cauchy-Folge konvergiert.

Ohne es explizit erwähnt zu haben, benutzt der Beweis für die Konvergenz von Cauchy-Folgen das Vollständigkeitsaxiom, denn die monotone, beschränkte Teilfolge bildet aus ihren Folgengliedern eine beschränkte Teilmenge von \(\R\). Außerdem ist der Grenzwert einer monotonen Folge identisch mit dem Supremum oder Infimum und diese existieren nur wegen der Vollständigkeit der reellen Zahlen (Axiom 3).

In vielen Lehrbüchern wird die Vollständigkeit der reellen Zahlen über die Konvergenz von Cauchy-Folgen definiert:

Alternative A zu Axiom 3

Jede Cauchy-Folge reeller Zahlen konvergiert gegen einen Grenzwert \(g \in \R\).

Mit diesem Axiom kann (und muss) man wiederum beweisen, dass Suprema und Infima für beschränkte Teilmengen in \(\R\) existieren. Die Entscheidung, welche Definition der Vollständigkeit man axiomatisch fordert ist größtenteils reine Geschmackssache. Man kann grundsätzlich aus jeder Variante die gleichen Schlüsse ziehen. Manche Varianten sind in bestimmten Fällen bei der Beweisführung aber einleuchtender. In auto hatten wir aus der Vollständigkeit der reellen Zahlen die Existenz von Quadratwurzeln in \(\R\) abgeleitet.

Wenn man die Vollständigkeit über die Konvergenz von Cauchy-Folgen axiomatisch fordert, kann daraus ebenfalls die Existenz von Quadratwurzeln abgeleitet werden, indem Konvergenz und Grenzwert der Wurzelfolge aus auto und auto-no gezeigt werden. Da jede konvergente Folge eine Cauchy-Folge ist, muss dies also auch für die Wurzelfolge gelten und der Grenzwert muss in \(\R\) existieren. Häufiger wird jedoch zunächst aus den Cauchy-Folgen das sogenannte Intervallschachtelungsverfahren (siehe nächster Abschnitt) abgeleitet und damit die Wurzelexistenz bewiesen. Cauchy-Folgen werden uns aber im auto über Reihen wieder begegnen.

Intervallschachtelung

Wir definieren uns nun eine hilfreiche Schreibweise für bestimmte Mengen, die man Intervalle nennt:

Wir bezeichnen alle folgenden Mengen als Intervalle. Dabei werden diese jeweils einem bestimmten Intervalltyp zugeordnet:

Außerdem führen wir die folgenden verkürzten Schreibweisen für bestimmte Intervalle ein:

Für ein Intervall \([a,b]\) bzw. \((a,b)\) bezeichnet \(\left|[a,b]\right|=b-a\) bzw. \(\left|(a,b)\right|=b-a\) die Länge des Intervalls. Uneigentliche Intervalle haben die Länge \(\infty\).

Aus der Definition folgt, dass das Intervall \([a,a]\), welches nur aus dem Punkt \(a\) besteht, die Länge \(0\) hat. Um die uneigentlichen abgeschlossenen Intervalle von den ‘normalen’ abgeschlossenen Intervallen zu unterscheiden, führen wir noch die Definition der Kompaktheit ein:

Wir nennen ein Intervall \(I\) kompakt, wenn es abgeschlossen und beschränkt ist.

Damit sind nur Intervalle der Form \([a,b]\) mit \(a,b \in \R\) kompakt und Intervalle der Form \([a,\infty)\) nicht.

Der Unterschied zwischen offenen und geschlossenen Intervallen ist ähnlich zu dem Unterschied eines Maximums und eines Supremums, wie das folgende Beispiel zeigt.

Mithilfe von Intervallen lässt sich eine sogenannte Intervallschachtelung definieren.

Eine Folge \((I_n)_{n \in \N}\) von abgeschlossenen Intervallen \(I_n\) heißt Intervallschachtelung, wenn die folgenden zwei Eigenschaften erfüllt sind:

Die Intervallschachtelung begrenzt nach und nach immer enger eine bestimmte Zahl \(x \in \R\). Daher eignet sie sich sehr gut, um die Existenz bestimmter reeller Zahlen zu beweisen. Wir weisen zunächst nach, dass so eine Zahl für jede Intervallschachtelung in \(\R\) existieren muss.

Für jede Intervallschachtelung \((I_n)\) existiert genau ein eindeutiges \(x \in \R\), für das gilt: \[x \in I_n, \ \forall n \in \N\]

Wir sagen auch: die Intervallschachtelung konvergiert gegen \(x\).

Beweis

Betrachten wir die linken Intervallgrenzen der Schachtelung, so bilden diese eine monoton wachsende Folge \((a_n)\). Analog bilden die rechten Intervallgrenzen eine monoton fallende Folge \((b_n)\). Es gilt außerdem \(a_n < b_n \ \forall n \in \N\). Also ist \((a_n)\) nach oben und \((b_n)\) nach unten beschränkt.

Damit gilt nach auto (bzw. nach Axiom 3), dass für beide Folgen ein Grenzwert in \(\R\) existiert. Nennen wir diese Grenzwerte \(a\) und \(b\), dann existiert ein Intervall \([a,b]\), das in jedem Intervall der Schachtelung liegt. Es gilt also noch zu zeigen, dass \(a=b = x\) gilt, damit die Schachtelung genau gegen eine Zahl \(x\) konvergiert.

Da die Intervalllängen eine Nullfolge bilden folgt:

\[ 0 = \liminf{n} |I_n| = \liminf{n} (b_n - a_n) \stackrel{S.3.11}{=} \liminf{n} b_n - \liminf{n} a_n\] \[\Leftrightarrow \liminf{n} a_n = \liminf{n} b_n .\]

Somit konvergiert die Intervallschachtelung gegen ein eindeutiges \(x = \liminf{n} a_n = \liminf{n} b_n\).

Auch die Konvergenz der Intervallschachtelung wird in manchen Lehrbüchern zur Definition der Vollständigkeit genutzt und für die reellen Zahlen \(\R\) axiomatisch gefordert. Das entsprechende Alternativaxiom sähe dann so aus:

Alternative B zu Axiom 3

Jede Intervallschachtelung reeller Zahlen konvergiert gegen ein eindeutiges \(x \in \R\).

Auch mit diesem Axiom könnte die Existenz von Suprema und Infima für beschränkte Mengen oder die Konvergenz von Cauchy-Folgen bewiesen werden. Es ist damit gleichwertig zu Axiom 3 und der Alternative A zu Axiom 3. Wir können nun ein letztes Mal die Existenz von Quadratwurzeln beweisen, diesmal mithilfe einer Intervallschachtelung. Damit der Beweis auch ein paar neue Erkenntnisse bietet, verallgemeinern wir die Aussage direkt auf die Existenz \(k\)-ter Wurzeln.

Zu jedem \(x \in \R_{>0}\) und jedem \(k \in \N\) gibt es genau ein \(y \in \R_{>0}\) mit \(y^k = x\).

Dieses bezeichnen wir als die \(k\)-te Wurzel von \(x\) und nutzen die Schreibweise \[y = x^\frac{1}{k} \text{ oder } y =\sqrt[k]{x}.\]

Beweis

Es genügt \(x>1\) zu behandeln, denn den Fall \(x<1\) führt man durch den Übergang \(x' =\frac{1}{x}\) auf den Fall \(x>1\) zurück. Für \(x=1\) ist \(y=1\) die Lösung.

Wir konstruieren per vollständiger Induktion eine Intervallschachtelung mit Intervallen \(I_n = [a_n, b_n]\), für die gilt:

  1. \(a_n^k \leq x \leq b_n^k\)
  2. \(|I_n| = \left ( \frac{1}{2} \right )^{n-1} |I_1|.\)

Sei \(I_1 = [1,x]\). Offensichtlich gelten (i) und (ii), da \(x > 1\).

\(I_{n+1}\) wird aus \(I_n\) gebildet, indem wir den Intervallmittelpunkt \(m= \frac{1}{2} (a_n + b_n)\) bestimmen. Dann ist \[ I_{n+1} = [a_{n+1}, b_{n+1}] = \begin{cases} [a_n, m] & \text{falls}\;\; m^k \geq x,\\ [m, b_n] & \text{falls}\;\; m^k < x. \end{cases} \]

Offensichtlich gilt (i) und \(\abs{I_{n+1}} = \frac{1}{2} \abs{I_n}\). Damit folgt aus \(\abs{I_2} = \frac{1}{2} \abs{I_1}\) auch (ii). Die Folge der Intervalle bildet eine Intervallschachtelung, da \(I_{n+1} \subset I_n\) und da es für jedes \(\eps >0\) ein \(n\) gibt, sodass \[ \left( \frac{1}{2} \right)^{n-1} < \eps \abs{I_1}^{-1} \quad \Rightarrow \quad \abs{I_n} < \eps \]

Sei \(y\) die in allen Intervallen \(I_n\) liegende Zahl. Es bleibt zu zeigen, dass \(y^k = x\) gilt. Zunächst zeigen wir, dass auch die Intervalle \(I_n^k =[a_n^k,b_n^k]\) eine Intervallschachtelung bilden:

  • \(I_{n+1}^k \subset I_n^k\) gilt wegen \(I_{n+1} \subset I_n\)

  • Für die Länge jedes Intervalls \(I_n^k\) gilt \[ \begin{align*} \abs{I_n^k} & = (b_n-a_n) (b_n^{k-1} + b_n^{k-2} a_n + \ldots + a_n^{k-1})\\ & < \abs{I_n} \cdot k \cdot b_1^{k-1} , \end{align*} \] da \(b_n > a_n \geq 1\) und \(1 < b_n \leq b_1\).

Sei nun \(\eps > 0\) gegeben, so existiert ein Index \(\upsilon\), so dass \(\abs{I_\upsilon} < \eps' = \frac{\eps}{k \cdot b_1^{k-1}}\) und damit \(\abs{I_\upsilon^k} < \eps .\)

Da \(y\) in \(I_n\) liegt, liegt \(y^k\) in \(I_n^k\) für alle \(n \in \N\). Außerdem liegt \(x\) in \(I_n^k\) für alle \(n \in \N\), da (i) gilt. Da es nur genau eine Zahl gibt, die in allen Intervallen \(I_n^k\) liegt, gilt \(y^k =x\).

Zu zeigen bleibt die Eindeutigkeit von \(y\). Sei \(z\) eine weitere Zahl mit \(z^k = x\) und \(z \neq y\). Dann muss gelten \(z >y\) oder \(z<y\), woraus \(z^k > y^k = x\) bzw. \(z^k < y^k =x\) folgen würde, da \(y > 1\) vorausgesetzt wurde. Dies steht im Widerspruch zur Annahme \(z^k = x\) (↯). Also ist \(y\) eindeutig.

Reihen

Neben Folgen sind Reihen ein weiteres Hilfsmittel, um Probleme approximativ zu lösen. Im Prinzip könnte man Reihen als spezielle Folgen betrachten. Ihre besondere Form und große praktische Bedeutung führen dazu, dass wir sie separat vorstellen.

Man nennt den Ausdruck \(\sum\limits^\infty_{k=1}{a_k} = a_1 + a_2 + \ldots\) mit \(a_k \in \R\) eine (unendliche) Reihe und \(s_n = \sum\limits^n_{k=1}{a_k}\) die n-te Teilsumme der Reihe.

Wenn die Folge der Teilsummen \((s_n)\) konvergiert, dann heißt die Reihe konvergent. Eine nicht konvergente Reihe heißt divergent.

Im Falle der Konvergenz bezeichnet \(\sum\limits^\infty_{k=1}{a_k}\) nicht nur die Reihe bzw. Folge der Teilsummen, sondern auch den Grenzwert der Reihe.

Die Summation kann bei Reihen auch mit \(k=0\) (oder einem beliebigen anderen Index) beginnen, falls dies für die entsprechenden Beispiele zu einer einfacheren Darstellung führt. Da die Konvergenz einer Reihe über die Konvergenz der Teilsummen definiert ist, können wir das Cauchy-Konvergenzkriterium für Folgen auch auf Reihen übertragen:

Die Reihe \(\sum\limits^\infty_{k=1}{a_k}\) konvergiert genau dann, wenn es zu jedem \(\eps >0\) ein \(n_0 \in \N\) gibt, sodass \(\abs{\sum\limits^n_{k=m}{a_k}} < \eps\) für alle \(n \geq m \geq n_0\).

Beweis

Es gilt offensichtlich \(s_n - s_m = \sum\limits^n_{k=m+1}{a_k}\). Alles Weitere folgt direkt aus auto.

Auch hier fällt wieder auf, dass die Konvergenzbedingung vollkommen unabhängig vom Startindex der Reihe ist. Ein paar endliche Summanden können lediglich den Grenzwert um einen endlichen Wert erhöhen/verringern, aber nichts an der Konvergenz oder Divergenz der Reihe ändern.

Die Reihe \(\sum\limits_{k=1}^\infty \frac{1}{k}\) nennt man die harmonische Reihe. Diese Reihe ist divergent.

Beweis: Wäre die harmonische Reihe konvergent, müsste es für \(\eps = \frac{1}{2}\) ein \(n_0\) geben, sodass \[ \forall n \geq m \geq n_0 :\; \abs{\sum\limits^n_{k=m}{\frac{1}{k}}} < \eps . \]

Betrachten wir aber \(m = n_0\) und \(n = 2m - 1\), so folgt \[ \sum\limits^{2m - 1}_{k=m} \frac{1}{k} \;=\; \frac{1}{m} + \dots + \frac{1}{2m - 1} \;\geq\; \underbrace{\frac{1}{2m} + \dots + \frac{1}{2m}}_{m \text{ Summanden}} \;=\; \frac{1}{2} \;=\; \eps. \]

Damit erfüllt die harmonische Reihe nicht das Cauchy-Konvergenzkriterium und kann demnach nicht konvergent sein.

Reihe visualisieren

Diese Visualisierung zeigt zwei Plots: Die einzelnen Reihenglieder \(a_k\) (als kleine Kreuze) und die Folge der Teilsummen \(s_n=\sum_{k=0}^n a_k\) (als kleine Kreise).

Die harmonische Reihe ist eine sehr wichtige Vergleichsreihe, da sie “gerade so” nicht konvergiert. Sie können zur Übung einmal bestimmen, wie viele Folgenglieder sie benötigen, um auch nur eine Summe von \(10\) oder \(20\) zu erreichen. Die Divergenz bedeutet, dass man jede noch so hohe Summe mit der harmonischen Reihe erreichen kann. Diese Reihe zeigt auch, dass es Reihen geben kann, deren Reihenglieder zwar eine Nullfolge sind, aber die trotzdem nicht konvergieren.

Umgekehrt gilt aber für jede Reihe, dass sie divergiert, wenn die Reihenglieder keine Nullfolge bilden. Sind z.B. alle Folgenglieder größer als ein positives \(\eps\), so werden unendlich viele Summanden \(\eps\) aufaddiert. Damit kann eine beliebig hohe Summe \(K\) durch \(\ceil{K/\eps}\) Summanden erreicht oder überschritten werden, wodurch die Folge der Partialsummen unbeschränkt, die Reihe also also divergent ist. Dies wird im folgenden Satz formal bewiesen:

Sei \(\sum\limits^\infty_{k=1}{a_k}\) eine konvergente Reihe. Dann ist die Folge der Summanden \((a_k)\) eine Nullfolge. Es gilt also \(\liminf{k}a_k=0\).

Beweis

Das \(\eps\)-Kriterium für \(a_k\) folgt direkt aus dem Cauchy-Konvergenzkriterium der Reihe für \(n=m:\) \[ \forall \eps > 0 \; \exists n_0 \in \N \; \forall m = n \geq n_0 :\; \abs{\sum\limits^n_{k=n}{a_k}} = \abs{a_k} = \abs{a_k - 0} < \eps \]

Die Reihe \(\sum\limits^\infty_{k=1}{(-1)^k}\) ist divergent, da die Reihenglieder nicht gegen \(0\) konvergieren.

Häufig werden wir Reihen betrachten, bei denen alle Folgenglieder positiv sind. Damit ist die Folge der Partialsummen automatisch monoton wachsend und es folgt analog zu auto folgender Satz für Reihen.

Eine Reihe \(\sum\limits^\infty_{k=1}{a_k}\) mit \(a_k \geq 0\) für alle \(k \in \N\) konvergiert genau dann, wenn die Folge der Teilsummen beschränkt ist.

Beweis

Aus \(a_k \geq 0\) folgt, dass \(s_n = \sum\limits^n_{k=1}{a_k}\) monoton wachsend ist. Ist \(s_n\) zusätzlich beschränkt, so gilt nach auto, dass \(s_n\) konvergiert und somit auch die Reihe konvergiert.

Für die zweite Richtung (“Die Reihe konvergiert \(\Rightarrow\) \(s_n\) ist beschränkt”) beweisen wir die Kontraposition, also “\(s_n\) ist unbeschränkt \(\Rightarrow\) die Reihe divergiert”. Dies haben wir aber bereits mit der Kontraposition von auto bewiesen.

Konkrete Grenzwerte von Reihen zu bestimmen, ist gar nicht so einfach. Eine Ausnahme bilden Fälle, in denen wir die \(n\)-te Partialsumme so weit vereinfachen können, dass wir die Reihe in eine normale Folge überführen können. Die Gleichheit des Folgenterms und der Partialsumme zeigt man in der Regel per vollständiger Induktion. Ein prominentes und sehr wichtiges Beispiel hierfür ist die geometrische Reihe.

Die geometrische Reihe \(\sum\limits^\infty_{k=0}{x^k}\) konvergiert für \(\abs{x} <1\) gegen den Grenzwert \(\frac{1}{1-x}\).

Wir zeigen dazu zunächst per Induktion, dass \[ s_n = \sum\limits^n_{k=0}{x^k} = \frac{1-x^{n+1}}{1-x} . \]

Induktionsanfang \(n=0\): \(x^0 = 1 = \frac{1-x}{1-x}\)

Induktionsvoraussetzung: Die Behauptung gelte für ein beliebiges \(n \in \N_0\).

Induktionsschritt \(n \to n+1\): Es gilt nach Induktionsvoraussetzung \(\sum\limits^n_{k=0}{x^k} = \frac{1-x^{n+1}}{1-x}\), dann gilt auch \[ \begin{align*} \sum\limits^{n+1}_{k=0}{x^k} &= \sum\limits^n_{k=0}{x^k} + x^{n+1} \\ &\stackrel{IV}{=} \frac{1-x^{n+1}}{1-x} + x^{n+1}\\ &= \frac{1-x^{n+1}}{1-x} + x^{n+1}\frac{1-x}{1-x}\\ &= \frac{1-x^{n+1}}{1-x} + \frac{x^{n+1}-x^{n+2}}{1-x}\\ &= \frac{1-x^{n+2}}{1-x}. \end{align*} \] Damit gilt \(s_n = \frac{1-x^{n+1}}{1-x}\) für alle \(n \in \N_0\).

Da \(x^{n + 1}\) für \(\abs{x} < 1\) gegen \(0\) konvergiert, folgt für den Grenzwert: \[ \liminf{n} \sum\limits^n_{k=0}{x^k} \;=\; \liminf{n} \frac{1-x^{n+1}}{1-a} \;=\; \frac{1-\liminf{n}(x^{n+1})}{1-x} \;=\; \frac{1-\liminf{n}(x^{n+1})}{1-x} \;=\; \frac{1}{1-x}. \]

Geometrische Reihe für x=0.8 visualisieren

Diese Visualisierung zeigt die geometrische Reihe für \(x=0.8\) in zwei Plots: Die einzelnen Reihenglieder \(a_kk\) (als kleine Kreuze) und die Folge der Teilsummen \(s_n=\sum_{k=0}^n a_k\) (als kleine Kreise).

Geometrische Reihe für x=1.2 visualisieren

Diese Visualisierung zeigt die geometrische Reihe für \(x=1.2\) in zwei Plots: Die einzelnen Reihenglieder \(a_k\) (als kleine Kreuze) und die Folge der Teilsummen \(s_n=\sum_{k=0}^n a_k\) (als kleine Kreise).

In anderen Fällen lässt sich der Grenzwert durch die Ausnutzung sogenannter Teleskopsummen beweisen. Dabei versucht man die Reihenglieder \(a_k\) durch eine zweite Folge \((b_k)\) so umzuschreiben, dass \(a_k = b_k - b_{k + 1}\). Damit ergibt sich für die \(n\)-te Partialsumme

\[\sum\limits^n_{k=0} a_k = \sum\limits^n_{k=0} (b_k - b_{k + 1}) = b_0 - b_1 + b_1 - b_2 + b_2 - b_3 + \ldots + b_n - b_{n+1} = b_0 - b_{n + 1}\]

Die Grenzwertbestimmung vereinfacht sich dadurch zu

\[\sum\limits^\infty_{k=0} a_k = \liminf{n}\sum\limits^n_{k=0} a_k = b_0 - \liminf{n}b_{n + 1}.\]

Die Reihe \(\sum\limits_{k=1}^\infty \frac{1}{k(k+1)}\) konvergiert und es gilt \(\liminf{n}\sum\limits_{k=1}^n \frac{1}{k(k+1)} = 1\).

Um den Grenzwert herzuleiten nutzen wir folgende Identität \(\frac{1}{k(k+1)} = \frac{1}{k} - \frac{1}{k+1}\) für alle \(k \in \N\). Damit lautet die \(n\)-te Teilsumme \[s_n = 1 - \frac{1}{2} + \frac{1}{2}- \frac{1}{3} + \frac{1}{3} - \ldots -\frac{1}{n} + \frac{1}{n} - \frac{1}{n+1} = 1 - \frac{1}{n+1}\] und es gilt \(\liminf{n} s_n = 1\).

Reihe visualisieren

Diese Visualisierung zeigt die Reihe in zwei Plots: Die einzelnen Reihenglieder \(a_k\) (als kleine Kreuze) und die Folge der Teilsummen \(s_n=\sum_{k=0}^n a_k\) (als kleine Kreise).

Ähnlich wie bei der Verknüpfung zweier konvergenter Folgen (auto) können wir auch konvergente Reihen miteinander kombinieren.

Seien \(\sum\limits^\infty_{k=1}{a_k}\) und \(\sum\limits^\infty_{k=1}{b_k}\) zwei konvergente Reihen, dann folgt:

  1. Auch \(\sum\limits^\infty_{k=1}{(a_k + b_k)}\) und \(\sum\limits^\infty_{k=1}{(a_k - b_k)}\) sind konvergent und für die Grenzwerte gilt \[ \begin{align*} \sum^\infty_{k=1} \left(a_k + b_k\right) \;&=\; \sum^\infty_{k=1} a_k + \sum\limits^\infty_{k=1} b_k ,\\[0.5em] \sum^\infty_{k=1} \left(a_k - b_k\right) \;&=\; \sum^\infty_{k=1} a_k - \sum^\infty_{k=1} b_k . \end{align*} \]

  2. Auch \(\sum\limits^\infty_{k=1}{c \cdot a_k}\) für ein beliebiges \(c \in \R\) ist konvergent und für den Grenzwert gilt \[\sum^\infty_{k=1} c \cdot a_k \;=\; c \cdot \sum^\infty_{k=1} a_k .\]

  3. Für jedes \(l \in \N\) mit \(l>1\) gilt: \[ \sum^\infty_{k=l} a_k \;\;\text{konvergiert} \quad \Leftrightarrow \quad \sum^\infty_{k=1} a_k \;\;\text{konvergiert}. \]

  4. Gilt für die Folgenglieder \(a_k \leq b_k \; \forall k \in \N\), so folgt \[\sum^\infty_{k=1} a_k \leq \sum\limits^\infty_{k=1}{b_k} .\]

Beweis

Wir nutzen \(s_n = \sum\limits^n_{k=1}{a_k}\) und \(t_n = \sum\limits^n_{k=1}{b_k}\) als Kurzschreibweise für die \(n\)-ten Teilsummen der Reihen. Der Beweis nutzt auto zur Bestimmung der Grenzwerte kombinierter Folgen, wobei \((s_n)\) und \((t_n)\) die betrachteten Folgen sind.

  1. Sei \(u_n = \sum\limits^n_{k=1}{(a_k + b_k)}\), dann gilt für den Grenzwert der Folge \((s_n+t_n)\) nach auto(a): \(\liminf{n} s_n + \liminf{n} t_n = \liminf{n}{(s_n + t_n)} = \liminf{n} u_n\), womit auch die kombinierte Reihe gegen den angegebenen Grenzwert konvergiert.

  2. Da \(s_n = \sum\limits_{k=1}^n a_k\) gilt nach auto(b): \(\liminf{n} c \cdot s_n = c \cdot \liminf{n} s_n = c \cdot \sum\limits_{k=1}^\infty a_k\), womit auch die skalierte Reihe gegen den angegebenen Grenzwert konvergiert.

  3. Seien \(r = \sum\limits_{k=1}^{l-1}a_k\) und \(s'_n = \sum\limits_{k=l}^{n} a_k\) (beachten Sie, dass wir in auto Summen mit \(n < l\) als \(0\) definiert haben). Damit entspricht der Grenzwert der Folge \((s'_n)\) der Reihe \(\sum\limits_{k=l}^\infty a_k\). Es gilt \(s'_n = s_n - \sum\limits_{k=1}^{l-1} a_k = s_n - r.\) Genauso gilt umgekehrt \(s_n = s'_n + r.\) Wir können \(r\) als konstante Folge interpretieren, womit nach auto(a) gilt, dass \(s'_n\) genau dann konvergiert wenn \(s_n\) konvergiert.

  4. Aus \(a_k \le b_k\) für alle \(k \in \N\), \(s_n \le t_n\) für alle \(n \in \N\), woraus mithilfe von auto die Behauptung folgt.

Um festzustellen, ob eine Reihe konvergiert, können wir im Prinzip die gleichen Kriterien anwenden, die wir bereits für Folgen kennengelernt haben. Allerdings ist dies durch die besondere Struktur der Reihen oft nicht leicht. In vielen Fällen können wir nicht, wie in den vorigen Beispielen, die Summenschreibweise vereinfachen. Daher gibt es besondere Konvergenzkriterien für Reihen, von denen wir im Folgenden einige kennenlernen werden. Wir beginnen mit dem Leibniz-Kriterium, welches wir für Reihen mit alterniereden Gliedern (d. h. Gliedern mit wechselnden Vorzeichen) anwenden können.

Sei \((a_k)_{k \in \N}\) eine monoton fallende Folge reeller nicht negativer Zahlen mit \(\liminf{k} a_k = 0\). Dann konvergiert die alternierende Reihe \(\sum\limits^\infty_{k=1}{(-1)^ka_k}\).

Beweis

Für die Folge der Teilsummen gilt \(s_n = \sum\limits^n_{k=1}{(-1)^ka_k}\).

Da \((a_k)\) monoton fällt, gilt \(a_{n + 1} \leq a_n \ \forall n \in \N\).

Wir betrachten die geraden und ungeraden Teilsummen separat:
Da \(s_{2n+2} - s_{2n} = -a_{2n+1} + a_{2n+2} \leq 0\), gilt: \(s_2 \geq s_4 \geq s_6 \geq \ldots\)
Da \(s_{2n+3} - s_{2n+1} = a_{2n+2} - a_{2n+3} \geq 0\), gilt: \(s_1 \leq s_3 \leq s_5 \leq \ldots\)

Damit ist die Folge der geraden Teilsummen \((s_{2n})_{n \in \N}\) monoton fallend und die Folge der ungeraden Teilsummen \((s_{2n + 1})_{n \in \N}\) monoton wachsend.

Da \(s_{2n} \geq s_1\) und \(s_{2n+1} \leq s_2\) sind beide Folgen beschränkt und es existieren die Grenzwerte \(S = \liminf{n}s_{2n}\) und \(S' = \liminf{n}s_{2n+1}\).

Es gilt \(S = S'\), da \(S-S' = \liminf{n} (s_{2n} - s_{2n+1}) = \liminf{n} a_{2n+1} = 0\).

An dieser Stelle ist die Konvergenz der Gesamtreihe \((s_n)\) eigentlich schon klar, da alle Folgenglieder entweder gerade oder ungerade sind und beide Teilfolgen gegen \(S\) konvergieren. Damit muss auch jede andere Teilfolge und somit auch die Gesamtfolge gegen \(S\) konvergieren. Trotzdem führen wir noch den formalen Beweis über das \(\eps\)-Kriterium:

Für alle \(\eps >0\) existieren \(n_1,n_2 \in \N\), sodass \(|s_{2n} -S| < \eps\) für \(n \geq n_1\) und \(|s_{2n+1} -S| < \eps\) für \(n \geq n_2\).
Wählen wir nun für die gesamte Folge \((s_n)\) der Teilsummen \(n_{12} = \max\set{2n_1, 2n_2+1 }\) dann gilt \(|s_n-S| < \eps\) für alle \(n \geq n_{12}\). Damit ist die Konvergenz bewiesen.

Die alternierende harmonische Reihe \(\sum\limits_{k = 1}^\infty \frac{(-1)^{k + 1}}{k}\) konvergiert nach dem Leibniz-Kriterium, da \(a_n = \frac{1}{n}\) eine Nullfolge ist.

Reihe visualisieren

Diese Visualisierung zeigt die Reihe in zwei Plots: Die einzelnen Reihenglieder \(a_k\) (als kleine Kreuze) und die Folge der Teilsummen \(s_n=\sum_{k=0}^n a_k\) (als kleine Kreise).

Absolut konvergente Reihen

Wir nennen eine Reihe \(\sum\limits^\infty_{k=1}{a_k}\) absolut konvergent, wenn die Reihe der Absolutbeträge \(\sum\limits^\infty_{k=1}{\abs{a_k}}\) konvergiert. Zur besseren Unterscheidung sprechen wir bei der Konvergenz von \(\sum\limits^\infty_{k=1}{a_k}\) (ohne Absolutbeträge) auch von der gewöhnlichen Konvergenz.

Durch die Beträge in \(\sum{\abs{a_k}}\) ist die Folge der Teilsummen stets monoton wachsend. Das bedeutet, wenn wir zusätzlich eine obere Schranke für \(\sum{\abs{a_k}}\) finden können, folgt die absolute Konvergenz von \(\sum{a_k}\) über auto. Für die absolute Konvergenz haben sich daher besondere Kriterien entwickelt, durch welche diese für viele Reihen leicht bestimmbar oder widerlegbar ist.

Das Kriterium der absoluten Konvergenz hat auch praktische Relevanz. Bei einer Reihe, die zwar gewöhnlich, aber nicht absolut konvergiert, kann sich beispielsweise der Grenzwert verändern, wenn wir die Reihensummanden vertauschen. Dies zeigen wir im folgenden Beispiel.

Für die alternierende harmonische Reihe \[ \sum_{k=1}^\infty \frac{(-1)^{k+1}}{k} = 1 - \frac{1}{2} + \frac{1}{3} - \frac{1}{4} + \frac{1}{5} - \frac{1}{6} + \frac{1}{7} - \frac{1}{8} + \ldots + \frac{1}{2n-1} - \frac{1}{2n} \pm \ldots \] haben wir bereits gezeigt, dass diese zwar gewöhnlich, aber nicht absolut konvergiert. Wir bezeichnen den Grenzwert der Reihe mit \(S\).

Nun betrachten wir die folgende Umordnung: \[ \left(1 - \frac{1}{2} - \frac{1}{4}\right) + \left(\frac{1}{3} - \frac{1}{6} - \frac{1}{8}\right) + \ldots + \left(\frac{1}{2n-1} - \frac{1}{4n-2} - \frac{1}{4n}\right) \pm \ldots \]

Dabei starten wir mit dem 1. ungeraden Summanden gefolgt von dem 1. und 2. geraden Summanden, dann folgt der 2. ungerade Summand und der 3. und 4. gerade, und so weiter. Da die Reihe unendlich viele Summanden hat, ist auch bei dieser Umordnung jeder Summand der ursprünglichen Reihenfolge irgendwann an der Reihe, also würde man vermuten, dass man den gleichen Grenzwert \(S\) erreicht. Allerdings lässt sich für den Grenzwert der Umordnung \(S'\) zeigen:

\[ \begin{align*} S' &= \left(1 - \frac{1}{2} - \frac{1}{4}\right) + \left(\frac{1}{3} - \frac{1}{6} - \frac{1}{8}\right) + \ldots + \left(\frac{1}{2n-1} - \frac{1}{4n-2} - \frac{1}{4n}\right) \pm \ldots\\ &= \left(\frac{1}{2} - \frac{1}{4}\right) + \left(\frac{1}{6} - \frac{1}{8}\right) + \ldots + \left(\frac{1}{4n-2} - \frac{1}{4n}\right) \pm \ldots\\ &= \frac{1}{2}\left(1 - \frac{1}{2} + \frac{1}{3} - \frac{1}{4} + \ldots + \frac{1}{2n - 1} - \frac{1}{2n} \pm \ldots\right)\\ &= \frac{1}{2}\left(\sum\limits_{k = 1}^\infty\frac{(-1)^{k + 1}}{k}\right) = \frac{1}{2}S \end{align*} \]

Diese Umordnung erreicht also einen anderen Grenzwert, nämlich \(S' = \frac{1}{2}S\).

Für absolut konvergente Reihen können wir dagegen beweisen, dass jede Umordnung gegen denselben Grenzwert konvergiert und müssen uns daher über die Reihenfolge der Summation keine Gedanken machen.

Sei \(\sum\limits^\infty_{k=1}{a_k}\) eine absolut konvergente Reihe. Dann konvergiert jede Umordnung der Glieder der Reihe gegen denselben Grenzwert.

Beweis

Sei \(\tau : \N\to \N\) eine Abbildung, die jedem \(n_1 \in \N\) genau ein \(n_2 \in \N\) zuordnet, sodass jedem \(n_2 \in \N\) genau ein \(n_1 \in \N\) zugeordnet wird.

Sei \(\liminf{n} s_n = \liminf{n} \sum\limits^n_{k=1}{a_k} = A\). Wir zeigen, dass auch \(\liminf{n} \sum\limits^n_{k=1}{a_{\tau(k)}} = A\) gilt.

Nach Voraussetzung gibt es für jedes \(\eps > 0\) ein \(n_0 \in \N\), sodass \(\sum\limits^\infty_{k=n_0}{\abs{a_k}} < \frac{\eps}{2}.\)
Daraus folgt \[\abs{ A - \sum\limits^{n_0-1}_{k=1}{a_k} } = \abs{ \sum\limits^\infty_{k=n_0}{a_k} } \leq \sum\limits^\infty_{k=n_0}{\abs{a_k}} < \frac{\eps}{2}.\]

Wähle \(n_1\) so groß, dass \(\set{ 1,2,\ldots , n_0 } \subseteq \set{ \tau(1), \tau(2), \ldots, \tau(n_1) }\).
Dann gilt für alle \(m \geq n_1 \ (\geq n_0)\): \[\abs{ \sum\limits^m_{k=1}{a_{\tau(k)}} - A } \leq \abs{ \sum\limits^m_{k=1}{a_{\tau(k)}} - \sum\limits^{n_0-1}_{k=1}{a_k} } + \abs{ \sum\limits^{n_0-1}_{k=1}{a_{k}} - A } \leq \sum\limits^\infty_{k=n_0}{\abs{a_k}} + \frac{\eps}{2} < \eps .\] Damit konvergiert die umgeordnete Reihe gegen denselben Grenzwert.

Die absolute Konvergenz erlaubt uns also, dass wir mit unendlichen Reihen genauso umgehen dürfen wie mit endlichen Summen. Außerdem werden wir nun einige nützliche Kriterien herleiten, welche uns erlauben, Reihen recht einfach auf absolute Konvergenz zu prüfen. Beginnen wir mit einem Satz über den Zusammenhang zwischen absoluter und gewöhnlicher Konvergenz.

Wenn die Reihe \(\sum\limits^\infty_{k=1}{a_k}\) absolut konvergiert, so konvergiert sie auch im gewöhnlichen Sinne.

Beweis

Aus der Dreiecksungleichung (auto) folgt: \[ \abs{\sum^n_{k=m}{a_k} } \;\leq\; \sum^n_{k=m}{\abs{a_k}} \;=\; \abs{\sum\limits^n_{k=m}{\abs{a_k}}} . \] Damit gilt \[ \abs{\sum^n_{k=m}{\abs{a_k}}} < \eps \;\;\Rightarrow\;\; \abs{ \sum\limits_{k=m}^n a_k } < \eps , \] sodass die Cauchy-Konvergenzbedingung für die Reihe erfüllt ist, wenn die Bedingung für absolute Konvergenz erfüllt ist.

Wie bereits erwähnt, müssen wir für den Beweis der absoluten Konvergenz eine obere Schranke finden. Eine Möglichkeit dafür ist es, eine größere Reihe zu finden, von der wir wissen, dass sie konvergiert.

Sei \(\sum\limits^\infty_{k=1}{c_k}\) eine konvergente Reihe mit ausschließlich nicht-negativen Gliedern.

Wenn für die Reihe \(\sum\limits^\infty_{k=1}{a_k}\) ein \(k_0 \in \N\) existiert, sodass für alle \(k \geq k_0\) gilt \(\abs{a_k} \leq c_k\), dann konvergiert die Reihe \(\sum\limits^\infty_{k=1}{a_k}\) absolut.

Beweis

Aus der Konvergenz von \(\sum\limits^\infty_{k=1}{c_k}\) folgt, dass für alle \(\eps > 0\) ein \(n_0 \in \N\) existiert, sodass für alle \(n \geq m \geq n_0\) gilt: \[ \abs{\sum\limits^n_{k=m}{c_k} } < \eps. \]

Da \(\abs{a_k} \leq c_k\) nach Voraussetzung für alle \(k \geq k_0\) gilt, folgt mit \(n_0' = \mathrm{max}\set{n_0, k_0}\) \[\sum\limits^n_{k=m}{\abs{a_k}} \leq \sum\limits^n_{k=m}{c_k} = \abs{\sum\limits^n_{k=m}{c_k}} < \eps\] für alle \(n \geq m \geq n_0'.\)

Die Reihe \(\sum\limits^\infty_{k=1}{\abs{a_k}}\) erfüllt also das Cauchy-Kriterium und konvergiert.
Somit konvergiert \(\sum\limits^\infty_{k=1}{a_k}\) absolut.

Die Reihe \(\sum\limits^\infty_{k=1}{\frac{1}{k^m}}\) ist eine Verallgemeinerung der harmonischen Reihe. Wir zeigen nun, dass diese für alle natürlichen Zahlen \(m\geq2\) (absolut) konvergiert.

Betrachten wir zunächst den Fall \(m = 2\):
Nach Beispiel 3.4 ist die Reihe \(\sum\limits^\infty_{k=1}{\frac{1}{k(k + 1)}}\) konvergent. Außerdem gilt \(\frac{1}{k(k + 1)} \geq \frac{1}{k(k + k)} = \frac{1}{2k^2}\). Damit gilt \[ \frac{1}{2}\sum\limits^\infty_{k=1}{\frac{1}{k^2}} \;=\; \sum^\infty_{k=1}{\frac{1}{2k^2}} \;\leq\; \sum^\infty_{k=1}{\frac{1}{k(k + 1)}} \]

Es gibt also eine größere Reihe, die konvergiert. Damit konvergiert nach dem Majorantenkriterium auch \(\frac{1}{2}\sum\limits^\infty_{k=1}{\frac{1}{k^2}}\) (absolut) und somit konvergiert nach auto ebenfalls die doppelte Reihe \(\sum\limits^\infty_{k=1}{\frac{1}{k^2}}\).

Für alle Exponenten \(m > 2\) gilt \(\frac{1}{k^m} \leq \frac{1}{k^2}\) und somit auch \[ \sum\limits^\infty_{k=1}{\frac{1}{k^m}} \leq \sum\limits^\infty_{k=1}{\frac{1}{k^2}}, \] womit nach dem Majorantenkriterium auch diese Reihen (absolut) konvergieren.

Reihe visualisieren

Diese Visualisierung zeigt die Reihe \(\sum\limits^\infty_{k=1}{\frac{1}{k^2}}\) und die konvergente Majorante \(\sum\limits^\infty_{k=1}{\frac{2}{k(k+1)}}\) in jeweils zwei Plots: Die einzelnen Reihenglieder \(a_k\) (als kleine Kreuze) und die Folge der Teilsummen \(s_n=\sum_{k=0}^n a_k\) (als kleine Kreise).

Das Majorantenkriterium impliziert außerdem folgendes Divergenz-Kriterium.

Sei \(\sum\limits^\infty_{k=1}{c_k}\) eine divergente Reihe mit ausschließlich nicht-negativen Gliedern.

Wenn für die Reihe \(\sum\limits^\infty_{k=1}{a_k}\) ein \(k_0 \in \N\) existiert, sodass für alle \(k \geq k_0\) gilt \(a_k \geq c_k\), dann divergiert auch \(\sum\limits^\infty_{k=1}{a_k}\).

Beweis als Übung

Die Reihe \(\sum\limits^\infty_{k=1}{\frac{1}{\sqrt{k}}}\) divergiert, da \(\frac{1}{\sqrt{k}} \geq \frac{1}{k}\) und die harmonische Reihe \(\sum\limits^\infty_{k=1}{\frac{1}{k}}\) divergiert.

Reihe visualisieren

Diese Visualisierung zeigt die Reihe \(\sum^\infty_{k=1}\frac{1}{\sqrt{k}}\) und die divergente Minorante \(\sum^\infty_{k=1}{\frac{1}{k}}\) in jeweils zwei Plots: Die einzelnen Reihenglieder \(a_k\) (als kleine Kreuze) und die Folge der Teilsummen \(s_n=\sum_{k=0}^n a_k\) (als kleine Kreise).

Die beiden folgenden Konvergenzkriterien basieren auf der Anwendung des Majorantenkriteriums auf die geometrische Reihe, wie man aus den Beweisen ablesen kann.

  1. Wenn ein festes \(q\in\R\) mit \(0<q<1\) und \(k_0 \in \N\) existieren, sodass \[\forall k \geq k_0 :\; \sqrt[k]{\abs{a_k}} \leq q ,\] dann konvergiert die Reihe \(\sum^\infty_{k=1}{a_k}\) absolut.

  2. Wenn \(k_0 \in \N\) existiert, sodass \[\forall k \geq k_0 :\; \sqrt[k]{\abs{a_k}} \geq 1 ,\] dann divergiert die Reihe \(\sum^\infty_{k=1}{a_k}\).

Limesform:
Existiert der Grenzwert \(a = \liminf{k}\sqrt[k]{\abs{a_k}}\), dann gilt:

Beweis
  1. Mit auto folgt aus \(\sqrt[k]{\abs{a_k}} \leq q \Leftrightarrow \abs{a_k} \leq q^k\). Damit konvergiert die Reihe \(\sum\limits^\infty_{k=1}{a_k}\) nach dem Majorantenkriterium absolut, da die geometrische Reihe \(\sum\limits^\infty_{k=0}{q^k}\) für \(|q| < 1\) konvergiert.

  2. Wenn aber \(\sqrt[k]{\abs{a_k}} \geq 1\) gilt, dann folgt daraus \(\abs{a_k} \geq 1\) und somit, dass \(a_k\) keine Nullfolge ist. Daher divergiert die Reihe in diesem Fall nach auto.

Zur Limesform:
Wenn der Grenzwert \(a = \liminf{k}\sqrt[k]{\abs{a_k}}\) existiert, dann gilt für alle \(\eps > 0\), also auch für \(\eps = |1 - a|\), dass ein \(k_0 \in \N\) existiert, sodass für alle \(n \geq k_0\) gilt: \[\abs{\sqrt[k]{\abs{a_k}} - a} < \abs{1 - a}\]

Ist \(a < 1\) muss demnach \(\sqrt[k]{\abs{a_k}} < 1\) gelten, womit die Bedingungen für den ersten Fall des Wurzelkriteriums gegeben sind.

Ist \(a > 1\), so kann \(a_k\) keine Nullfolge sein und damit divergiert die Reihe nach auto.

Bemerkung: Für \(a = 1\) ist die obige Argumentation nicht möglich, da sonst \(\eps = |1 - a| = 0\), was \(\eps > 0\) widersprechen würde.

Obwohl das Majorantenkriterium das Wurzelkriterium impliziert und damit eine stärkere Bedingung darstellt, ist gerade die Limesform des Wurzelkriteriums sehr hilfreich für Konvergenzbeweise, da sie den Beweis auf das Abarbeiten einer einfachen ‘Anleitung’ reduziert. Gerade für Reihen mit \(k\) im Exponenten ist das Wurzelkriterium ideal geeignet, wie das folgende Beispiel zeigt.

Wir betrachten die Reihe \(\sum\limits^\infty_{k=1}{\left (x+ \frac{1}{k}\right)^k}\) mit \(0 \leq x < 1\).
Es gilt \(\sqrt[k]{\left(x+ \frac{1}{k}\right)^k} = \left( x + \frac{1}{k} \right)\) und \(\liminf{k} \left( x + \frac{1}{k} \right) = x < 1\). Damit konvergiert die Reihe.

  1. Wenn ein festes \(q\in\R\) mit \(0<q<1\) und \(k_0 \in \N\) existieren, sodass \[\forall k \geq k_0 :\; a_k \neq 0 \;\;\and\;\; \abs{\frac{a_{k+1}}{a_k}} \leq q ,\] dann konvergiert die Reihe \(\sum\limits^\infty_{k=1}{a_k}\) absolut.

  2. Wenn \(k_0 \in \N\) existiert, sodass \[\forall k \geq k_0 :\; a_k \neq 0 \;\;\and\;\; \abs{\frac{a_{k+1}}{a_k}} \geq 1 ,\] dann divergiert die Reihe \(\sum\limits^\infty_{k=1}{a_k}\).

Limesform:
Existiert der Grenzwert \(a = \liminf{k}\abs{\frac{a_{k+1}}{a_k}}\), dann gilt:

Beweis
  1. Wir betrachten für \(k > k_0\) den Term \[ \abs{ \frac{a_k}{a_{k_0}} } = \abs{\frac{a_k}{a_{k-1}}} \cdot \abs{\frac{a_{k-1}}{a_{k-2}}} \cdots \abs{\frac{a_{k_0+1}}{a_{k_0}}} \leq q \cdot q \cdot q \cdots q = q^{k-k_0} . \] Damit ist \[ \abs{a_k} \leq \abs{a_{k_0}} \cdot q^{k-k_0} = \frac{\abs{a_{k_0}}}{q^{k_0}} \cdot q^k = c \cdot q^k \] mit \(c = \frac{\abs{a_{k_0}}}{q^{k_0}}\). Damit ist die Reihe \(c\sum^\infty_{k=k_0}{q^k}\) eine konvergierende Majorante (geometrische Reihe) und \(\sum\limits^\infty_{k=1}{a_k}\) konvergiert absolut nach dem Majorantenkriterium.

  2. Im Fall \(\abs{\frac{a_{k+1}}{a_k}} \geq 1\) folgt \(\abs{a_{k+1}} \geq \abs{a_k}\), womit die Absolutbeträge monoton wachsen und keine Nullfolge bilden können.

Zur Limesform:
Beweisführung erfolgt analog zur Limesform des Wurzelkriteriums.

Man kann das Quotientenkriterium auch aus dem Wurzelkriterium herleiten, allerdings nicht umgekehrt. Daraus folgt, dass letzteres das stärkere Kriterium ist und man die absolute Konvergenz mancher Reihen nur mit dem Wurzelkriterium zeigen kann. In den meisten Fällen sind aber beide Kriterien einsetzbar und man entscheidet sich für jenes, bei dem sich die einfacheren Terme ergeben. Besonders für Reihen, in denen Fakultäten vorkommen, ist das Quotientenkriterium gut geeignet.

Die Reihe \(\sum\limits^\infty_{k=1}{\frac{k^5}{k!}}\) ist absolut konvergent nach Quotientenkriterium, denn es gilt:

\(\liminf{k}\abs{ \frac{a_{k+1}}{a_k} } = \liminf{k}\abs{ \frac{(k + 1)^{5} \cdot k!}{k^5 \cdot (k + 1)!} } = \liminf{k}\abs{ \left(\frac{k + 1}{k}\right)^5 \cdot \frac{1}{k + 1} } = 1^5 \cdot 0 = 0 < 1\).

Wir haben an dieser Stelle genug Vorarbeit geleistet, um Stellenwertsysteme zu verstehen. Also zum Beispiel das typische Dezimalsystem, in dem gilt \(1/4 = 0.25\). Dieses Stellenwertsystem basiert auf der natürlichen Zahl \(10\). Wir können aber auch beliebige andere Basen wählen. Prominente Beispiele sind das Binärsystem (Basis \(2\)) und das Hexadezimalsystem (Basis \(16\)). Da die Stellenwertsysteme für die restliche Veranstaltung nicht relevant sind, haben wir diesen Teil in einen Exkurs Stellenwertsysteme ausgelagert.

Potenzreihen

Potenzreihen sind eine wichtige Klasse von Reihen, die einige angenehme Eigenschaften haben, sodass sie sich einfach handhaben lassen. Gleichzeitig kann man mit Hilfe von Potenzreihen viele Funktionen approximieren, was wir in späteren Kapiteln noch weiter ausführen werden. An dieser Stelle werden nur die ersten Grundlagen der Potenzreihen eingeführt.

Sei \((a_k)_{k \in \N_0}\) eine Folge und \(x,x_0 \in \R\), dann ist eine Potenzreihe \(P(x,x_0)\) mit Entwicklungspunkt \(x_0\) definiert als \[ P(x,x_0) \;=\; \sum_{k=0}^\infty a_k \cdot (x - x_0)^k \;=\; a_0 + a_1 \left(x - x_0 \right) + a_2 \left(x - x_0 \right)^2 + \ldots \]

Mit dem häufig gewählten Entwicklungspunkt \(x_0 = 0\) ergibt sich die Potenzreihenform: \[ P(x) \mathrel{:=} P(x,0) \;=\; \sum_{k=0}^\infty a_k \cdot x^k \;=\; a_0 + a_1 x + a_2 x^2 + \ldots \]

Die Exponentialreihe werden wir in diesem Abschnitt noch gesondert betrachten, die Logarithmusreihe wird uns erst in einem späteren Kapitel wieder begegnen.

Für Potenzreihen fragen wir uns nicht nur, ob die Reihe konvergiert, sondern für welche \(x \in \R\) sie konvergiert. Durch die spezielle Struktur der Potenzreihe ergeben sich außerdem Vereinfachungen für die Konvergenzuntersuchung. Betrachten wir dazu folgendes Beispiel:

Wir wollen eine beliebige Potenzreihe auf Konvergenz prüfen: \[ \sum_{k=0}^\infty a_k (x - x_0)^k \]

Mit dem Wurzelkriterium und dem Quotientenkriterium ergibt sich, dass \[ \liminf{k} \sqrt[k]{\abs{a_k (x-x_0)^k}} = \abs{x-x_0} \, \liminf{k} \sqrt[k]{\abs{a_k}} \] und \[ \liminf{k} \abs{\frac{a_{k+1}(x-x_0)^{k+1}}{a_k(x-x_0)^k}} = \abs{x-x_0} \, \liminf{k}\abs{\frac{a_{k+1}}{a_k}} \] jeweils kleiner als \(1\) sein müssen, damit die Reihe (absolut) konvergiert. Die Limesbildung erfolgt in beiden Fällen nur über die Folge \((a_k)\).

Nehmen wir an, wir erhalten zum Beispiel \[\liminf{k}\sqrt[k]{\abs{a_k}} = 20.\] Dann vereinfacht sich das Wurzelkriterium zu \(20\abs{x-x_0} < 1\), also konvergiert die Reihe in diesem Fall für \(x_0 - \frac{1}{20} < x < x_0 + \frac{1}{20}\).

Wenn \(\liminf{k}\sqrt[k]{\abs{a_k}}\) bestimmt gegen \(\pm \infty\) divergiert, dann divergiert auch die Potenzreihe für \(x \neq x_0\). Am Entwicklungspunkt \(x = x_0\) konvergiert offensichtlich jede Potenzreihe.

Die Menge der \(x\)-Werte, für die eine Potenzreihe konvergiert, ist stets ein zusammenhängendes Intervall, da der folgende Satz gilt:

  1. Konvergiert eine Potenzreihe \(P(x,x_0)\) in einem Punkt \(c\), so konvergiert sie in jedem Punkt \(x\) mit \(\abs{x-x_0} < \abs{c-x_0}\) absolut.

  2. Wenn \(P(x,x_0)\) in einem Punkt \(c\) nicht absolut konvergiert (also nur gewöhnlich konvergiert oder divergiert), dann divergiert \(P(x,x_0)\) für alle \(\abs{x-x_0} > \abs{c-x_0}\).

Beweis

Wir führen den Beweis für \(x_0 = 0\), da sich andere Entwicklungspunkte mit der Substitution \(x \gets x-x_0\) und \(c \gets c-x_0\) auf diesen Fall zurückführen lassen.

  1. Da \(P(c)\) konvergiert, müssen die Reihenglieder \(a_k\) eine Nullfolge bilden. Damit gibt es eine obere Schranke \(K\in\R\) mit \(\abs{a_k c^k} \le K\) für alle \(k \in \N\). Dann ist aber auch \[ \abs{a_k c^k} \;=\; \abs{ a_k c^k \cdot \frac{x^k}{x^k} } \;=\; \abs{ a_k x^k } \cdot \abs{ \left(\frac{c}{x}\right)^k } \;\le\; K. \] Daraus folgt mit \(\abs{x} < \abs{c}\) \[ \abs{a_k x^k} \le q^k K \quad\text{mit}\quad q = \abs{\frac{x}{c}} < 1 . \] Die Reihe \(K \, \sum\limits_{k=0}^\infty q^k\) konvergiert, da sie ein Vielfaches der geometrischen Reihe ist. Also konvergiert nach Majorantenkriterium die betragsmäßig kleinere Reihe \(P(x) = \sum\limits_{k=0}^\infty a_k x^k\) absolut.

  2. Für den zweiten Teil des Satzes muss, wenn \(P(c)\) nicht absolut konvergiert, nach Wurzelkriterium für fast alle \(k\) gelten: \[\abs{c} \sqrt[k]{\abs{a_k}} \geq 1 .\] Daraus folgt, dass für \(\abs{x}>\abs{c}\) auch gilt \[ 1 \;\leq\; \abs{c} \, \sqrt[k]{\abs{a_k}} \;<\; \abs{x} \, \sqrt[k]{\abs{a_k}} . \] Somit kann \(P(x)\) für \(\abs{x} > \abs{c}\) nach Wurzelkriterium nicht absolut konvergieren.

Den sich so ergebenden zusammenhängenden Konvergenzbereich charakterisiert man über den sogenannten Konvergenzradius.

Sei \(P(x,x_0)\) eine Potenzreihe. Wenn für ein \(r \in \R_{\geq 0}\) gilt, dass \(P(x,x_0)\) für alle \(\abs{x-x_0} < r\) konvergiert und für alle \(\abs{x-x_0} > r\) divergiert, dann nennt man \(r\) den Konvergenzradius von \(P(x,x_0)\).

Allgemein kann man den Konvergenzradius als Supremum definieren. Es gilt \(r = \sup\left\{y=|x-x_0| | \text{Reihe konvergiert für } x\right\}\).

Die Potenzreihe \(P(x) = \sum\limits_{k=1}^\infty \frac{x^k}{k}\) mit \(a_k=\frac{1}{k}\) und \(x_0=0\)) ist für \(x = -1\) identisch zur alternierenden harmonischen Reihe, welche konvergiert (siehe auto). Daraus folgt nach dem letzten Satz, dass \(P(x)\) für alle \(\abs{x} < \abs{-1} = 1\) absolut konvergiert.

Für \(x = 1\) ist \(P(x)\) identisch zur harmonischen Reihe, welche divergiert (siehe (auto). Daher divergiert \(P(x)\) für alle \(\abs{x} > 1\).

Damit ist \(r = 1\) der Konvergenzradius von \(P(x)\).

Im Folgenden werden wir noch die Exponentialreihe als sehr prominente Potenzreihe genauer betrachten, welche uns für den Rest der Veranstaltung begleiten wird.

Die Exponentialreihe

Wir bezeichnen die Reihe \[ \exp(x) = \sum\limits^\infty_{k=0} {\frac{x^k}{k!}} \] als Exponentialreihe. Wir definieren darüber hinaus die Eulersche Zahl als \[ e \mathrel{:=} \exp(1) = \sum\limits^\infty_{k=0} {\frac{1}{k!}} = 1 + \frac{1}{1} + \frac{1}{2} + \frac{1}{6} + \frac{1}{24} + \ldots \]

Für jedes \(x \in \R\) ist \(\exp(x)\) absolut konvergent.

Beweis

Die Exponentialreihe ist eine Potenzreihe mit \(a_k = \frac{1}{k!}\) und \(x_0=0\). Damit folgt nach Quotientenkriterium analog zu auto: \[ \abs{x} \liminf{k} \abs{\frac{a_{k+1}}{a_k}} \;=\; \abs{x} \liminf{k} \frac{k!}{(k+1)!} \;=\; \abs{x} \liminf{k} \frac{1}{k+1} \;=\; 0 < 1. \]

Damit ist die Exponentialreihe absolut konvergent für alle \(x \in \R\).

Die Exponentialreihe definiert die Exponentialfunktion \(\exp(x)\), für die es zahlreiche Anwendungen in den Naturwissenschaften und auch in Gesellschafts- und Wirtschaftwissenschaften gibt. Die Exponentialreihe ermöglicht die Approximation der Werte der Exponentialfunktion durch endliche Summation. Mit ihrer Hilfe werden z.B. Wachstums- und Zerfallsprozesse beschrieben.

Eine fundamentale Eigenschaft der Exponentialreihe ist \[\exp(x + y) = \exp(x)\exp(y).\]

In manchen Lehrbüchern wird sie sogar hauptsächlich darüber definiert. Aus dieser lassen sich nahezu alle weiteren Eigenschaften der Reihe ableiten. Für den Beweis benötigen wir eine Verallgemeinerung des Distributivgesetzes (“jeder mit jedem”), damit wir unendliche Summen miteinander multiplizieren können. Dabei taucht dasselbe Problem auf, welches uns bereits bei der Abzählbarkeit von \(\Q\) begegnet ist (Kapitel 2.6): Wenn wir zwei unendliche Summen multiplizieren, ergibt sich: \[ \begin{align*} \left( a_0 + a_1 + a_2 + \ldots \right) \left( b_0 + b_1 + b_2 + \ldots \right) &=\\ a_0b_0 + a_0b_1 + a_0b_2 + \ldots + a_1b_0 &+ a_1b_1 + a_1b_2 + \ldots + a_2b_0 + a_2b_1 + a_2b_2 + \ldots + \ldots \end{align*} \]

Hierbei verbirgt sich hinter jedem \(\ldots\) eine unendliche Anzahl von Summanden. Bei einer Zuordnung der natürlichen Zahlen in dieser Reihenfolge würden bereits vor dem Term \(a_1b_0\) alle natürlichen Zahlen zugewiesen sein. Die Lösungsidee ist ebenfalls dieselbe, welche wir schon bei den rationalen Zahlen angewendet haben: wir stellen uns die Summanden der ersten Reihe als Zeilen und die der zweiten als Spalten einer Tabelle vor. Die sich ergebenden Produkte innerhalb der Tabelle nummerieren wir dann diagonal durch:

\[ \begin{array}{c|ccccccccccccc} && b_0 & & b_1 & & b_2 & & b_3 &\\ \hline \\[-2mm] a_0 && a_0b_0 & \rightarrow & a_0b_1 & & a_0b_2 & \rightarrow & a_0b_3 & \cdots \\ && & \swarrow & & \nearrow & & \swarrow \\ a_1 && a_1b_0 & & a_1b_1 & & a_1b_2 & & a_1b_3 & \cdots \\ &&\downarrow & \nearrow & & \swarrow \\ a_2 && a_2b_0 & & a_2b_1 & & a_2b_2 & & a_2b_3 & \cdots \\ & && \swarrow \\ a_3 && a_3b_0 & & a_3b_1 & & a_3b_2 & & a_3b_3 & \cdots \\ && \vdots & & \vdots & & \vdots & & \vdots & \end{array} \]

Dabei ist die Summe der Indizes in jeder Diagonale konstant. Es ergibt sich also die Summationsreihenfolge: \[ \left( a_0b_0 \right) + \left( a_0b_1 + a_1b_0 \right) + \left( a_0b_2 + a_1b_1 + a_2b_0 \right) + \ldots + \left( a_0b_n + a_1 b_{n-1} + a_2b_{n-2} + \ldots + a_nb_0 \right) + \ldots \]

Mit dieser Abzählung können wir jedem Summanden des Produkts der zwei Reihen genau eine natürliche Zahl zuweisen. Die Frage ist nun, wann diese Produktreihe konvergiert und ob das Produkt auch dem Produkt der Grenzwerte der beiden Einzelreihen entspricht? Der französische Mathematiker Augustin-Louis Cauchy hat für dieses Reihenprodukt erneut seinen Namen hergegeben.

Seien \(\sum\limits^\infty_{k=0}{a_k}\) und \(\sum\limits^\infty_{k=0}{b_k}\) absolut konvergente Reihen. Für \(n \in \N\) sei \[c_n \mathrel{:=}\sum\limits^n_{k=0}{a_k \cdot b_{n-k}} = a_0b_n + a_1b_{n-1} + \ldots + a_nb_0.\] Dann ist die Reihe \[\sum\limits^\infty_{k=0}{c_k} = \left( \sum\limits^\infty_{k=0}{a_k} \right) \cdot \left( \sum\limits^\infty_{k=0}{b_k} \right)\] absolut konvergent.

Beweis

Wir definieren \[ c_n \mathrel{:=} \sum\limits_{\substack{k+l = n \\ k,l \in \N_0}} a_k \cdot b_l \qquad \text{und} \qquad C_N \mathrel{:=} \sum^N_{n=0} c_n = \sum^N_{n=0} \sum\limits_{\substack{k+l = n \\ k,l \in \N_0}} a_k \cdot b_l, \] sowie die beiden Mengen \[ \begin{align*} Q_N &\mathrel{:=} \set{ (k,l) \in \N_0 \times \N_0 \mid k \leq N, l \leq N} ,\\ \Delta_N &\mathrel{:=} \set{ (k,l) \in \N_0 \times \N_0 \mid k + l \leq N } . \end{align*} \] Die Mengen werden in der unten stehenden Abbildung dargestellt. Offensichtlich gilt \(Q_{\floor{N/2}} \subset \Delta_N \subset Q_N\) für \(N \ge 2\).

skript-page-code-eb010422.tex.svg

Die Multiplikation der Teilsummen \(A_N \mathrel{:=} \sum\limits^N_{n=0}{a_n}\) und \(B_N \mathrel{:=} \sum\limits^N_{n=0}{b_n}\) liefert \[A_N \cdot B_N = \sum\limits_{k,l \in Q_N}{a_k \cdot b_l} .\]

Da \(\Delta_N \subset Q_N\) gilt \(A_N B_N - C_N = \sum\limits_{k,l \in Q_N \setminus \Delta_N}{a_k \cdot b_l}\).

Für die Teilsummen \(A_N^* \mathrel{:=} \sum\limits^N_{n=0}{\abs{a_n}}\) und \(B_N^* \mathrel{:=} \sum\limits^N_{n=0}{\abs{b_n}}\) erhält man \[A_N^*B_N^* = \sum\limits_{k,l \in Q_N}{\abs{a_k} \cdot \abs{b_l}} .\]

Ferner folgt aus \(Q_{\floor{N/2}} \subset \Delta_N \;\Rightarrow\; Q_N \setminus \Delta_N \subset Q_N \setminus Q_{\floor{N/2}}\), womit gilt \[ \abs{ A_N B_N - C_N } \leq \sum\limits_{k,l \in Q_N \setminus Q_{\floor{N/2}}} \abs{a_k} \abs{b_l} = A^*_N B^*_N - A^*_{\floor{N/2}} B^*_{\floor{N/2}} . \]

Da beide Reihen absolut konvergent sind, konvergiert \(A^*_N B_N^*\) und ist also eine Cauchy-Folge, sodass für \(N \to \infty\) die obige Differenz gegen \(0\) konvergiert und damit auch \[ \liminf{N} C_N = \liminf{N}A_N B_N = \liminf{N} A_N \cdot \liminf{N} B_N . \] Damit wurde gezeigt, dass \(\sum\limits^\infty_{n=0}{c_n}\) konvergiert. Die absolute Konvergenz folgt aus \[ \sum^\infty_{n=0} \abs{c_n} \leq \sum^\infty_{n=0} \sum^n_{k=0} \abs{a_k} \cdot \abs{b_{n-k}} . \]

Die Konvergenz des Cauchy-Produkts zweier absolut konvergenter Reihen gilt übrigens erneut nur für absolut konvergente Reihen, aber nicht zwangsweise für konvergente Reihen.

Wenden wir uns nun den wichtigsten Eigenschaften der Exponentialreihe zu:

Für die Exponentialreihe \(\exp(x)\) gelten folgende Eigenschaften:

  1. \(\forall x,y \in \R \gilt \exp(x+y) = \exp(x) \cdot \exp(y)\)

  2. \(\forall x \in \R \gilt \exp(-x) = \frac{1}{\exp(x)}\)

  3. \(\forall x \in \R \gilt \exp(x) > 0\)

  4. \(\forall n \in \Z \gilt \exp(n) = e^n\)

Beweis
  1. Wir bilden das Cauchy-Produkt der beiden absolut konvergenten Reihen \(\sum\limits_{k=0}^\infty \frac{x^k}{k!}\) und \(\sum\limits_{k=0}^\infty \frac{y^k}{k!}\). Für \(c_n\) gilt dann \[c_n = \sum\limits_{k=0}^n \frac{x^k}{k!}\cdot \frac{y^{n-k}}{(n-k)!} = \frac{1}{n!} \sum\limits_{k=0}^n {n \choose k} x^ky^{n-k} = \frac{1}{n!}(x+y)^n .\] Die einzelnen Umformungen folgen aus dem binomischen Lehrsatz. Wir erhalten nach obiger Umformung \[\exp(x) \cdot \exp(y) = \sum\limits_{n=0}^\infty c_n = \sum\limits_{n=0}^\infty \frac{(x+y)^n}{n!} = \exp(x + y) .\]

  2. Aufgrund von (a) gilt \[\exp(x)\cdot \exp(-x) = \exp(x - x) = \exp(0) = 1 .\] Daraus folgt \(\exp(x) \neq 0\) und \(\exp(-x) = \frac{1}{\exp(x)}\).

  3. Für \(x \ge 0\) gilt \[\exp(x) = 1 + x + \frac{x^2}{2} + \ldots \ge 1 >0 ,\] da \(\frac{x^k}{k!} > 0\). Für \(x < 0\) folgt \(-x > 0\) und damit \(\exp(x) = \frac{1}{\exp(-x)} > 0\), wie aus (a) und (b) folgt.

  4. Wir zeigen per Induktion über \(n \in \N_0\), dass \(\exp(n) = e^n\) gilt.
    Induktionsanfang \(n=0:\) \(\exp(0) = 1 = e^0\).
    Induktionsvoraussetzung: Wir nehmen an, die Behauptung gilt für ein \(n \in \N_0\)
    Induktionsschritt \(n \rightarrow n+1\):
    Sei \(\exp(n) = e^n\) und \(\exp(1) = e\) (laut auto). Nach (a) gilt dann \[\exp(n+1) = \exp(n) \cdot \exp(1) = e^n \cdot e^1 = e^{n+1} .\] Damit ist der Beweis für \(n \ge 0\) komplett. Mittels (b) gilt für \(n \in \N\) \[\exp(-n) = \frac{1}{\exp(n)} = \frac{1}{e^n} = e^{-n} .\] Damit ist der Satz für alle \(n \in \Z\) bewiesen.

Teil (d) lässt sich auf \(x \in \R\) ausdehnen. Es ist dann \(e^x = \exp(x) = \exp(n + \delta) = e^n \cdot \exp(\delta)\) mit \(\delta = x - n\), \(n = \floor{x} \in \Z\). Diese Darstellung kann man nutzen, um reellwertige Exponenten für eine allgemeine Basis, nicht nur der Basis \(e\), zu definieren. Wir werden dies später weiter vertiefen.

Wir sind bisher noch nicht auf den zweiten Teil der auto eingegangen, der Definition der Eulerschen Zahl \(e\). Wir hatten \(e\) bereits im Zusammenhang mit den Folgen \((e_n)\) und \((\bar{e}_n)\) (auto und auto-no) im Kapitel zu Folgen erwähnt. Die Folgen waren definiert als \[e_n = \left(1 + \frac{1}{n}\right)^n \qquad \bar{e}_n = \left(1 + \frac{1}{n}\right)^{n + 1}\]

Es ist alles andere als offensichtlich, dass die Grenzwerte dieser beiden Folgen und der Reihenwert von \(\exp(1)\) die gleiche Zahl \(e\) ergeben sollen. Dies werden wir im folgenden Satz beweisen.

Es gilt für alle \(x \in \R\) \[\exp(x) = \sum^\infty_{k=0} \frac{x^k}{k!} \;=\; \liminf{n} \left(1 + \frac{x}{n}\right)^n.\]

Insbesondere gilt mit \(x = 1\) für die Eulersche Zahl: \[e = \sum^\infty_{k=0} \frac{1}{k!} \;=\; \liminf{n} \left(1 + \frac{1}{n}\right)^n.\]

Beweis

Zur Übersichtlichkeit beweisen wir nur den Fall \(x = 1\) (also den zweiten Teil der Aussage) ausführlich und klären anschließend, wie wir den allgemeinen Fall beweisen würden. Betrachten wir also den zweiten Teil der Aussage: Dafür nutzen wir das Sandwich-Theorem und zeigen, dass die Folge der Partialsummen

\[s_n = \sum\limits^n_{k=0} {\frac{1}{k!}}\]

zwischen den zwei Folgen \((e_n)\) und \((\bar{e}_n)\) liegt, mit \[e_n = \left(1 + \frac{1}{n}\right)^n, \qquad \bar{e}_n = \left(1 + \frac{1}{n}\right)^{n + 1}\]

Der Konvergenzbeweis, sowie der Nachweis, dass der Grenzwert beider Folgen identisch ist, wurde in auto und auto geführt.

1. Teil (\(e_n \leq s_n\)):

Für diesen müssen wir lediglich den binomischen Lehrsatz (auto) auf die Folge \((e_n)\) anwenden:

\[\begin{align*}e_n &= \left(1 + \frac{1}{n}\right)^n \\ &= \sum\limits^n_{k = 0} \displaystyle{n \choose k} \frac{1}{n^k}\\ &= \sum\limits^n_{k = 0} \frac{n(n-1)(n-2)\cdots(n - (k - 1))}{k!}\frac{1}{n^k}\\ &= \sum\limits^n_{k = 0} \frac{n(n-1)(n-2)\cdots(n - (k - 1))}{n^k}\frac{1}{k!}\\ &= \sum\limits^n_{k = 0} \underbrace{\frac{n}{n}\frac{n-1}{n}\frac{n-2}{n}\cdots\frac{n - (k - 1)}{n}}_{\leq 1}\ \frac{1}{k!}\\ &\leq \sum\limits^n_{k = 0} \frac{1}{k!} = s_n \end{align*}\]

2. Teil (\(\bar{e}_n \geq s_n\)):

Der zweite Teil ist schon deutlich anspruchsvoller zu zeigen. Wir nutzen hier neben dem binomischen Lehrsatz noch verschiedene Tricks, unter anderem die Bernoullische Ungleichung (auto) und Indexverschiebungen. Letztere nutzen aus, dass die folgenden Summen identisch sind:

\(\sum\limits^n_{k = 0} a_k = a_0 + a_1 + a_2 + \ldots + a_n = \sum\limits^{n+1}_{k = 1} a_{k-1} = a_0 + a_1 + a_2 + \ldots + a_n\)

In der Summation wird der Index um Eins erhöht und im Reihenterm um Eins verringert, wodurch sich der Summenwert nicht ändert.

Fangen wir an:

\[\begin{align*}\bar{e}_n &= \left(1 + \frac{1}{n}\right)^{n + 1} \\ & \quad\downarrow \text{Binomischer Lehrsatz}\\ &= \sum\limits^{n+1}_{k = 0} \displaystyle{n + 1 \choose k} \frac{1}{n^k}\\ & \quad\downarrow \text{Ersten Summanden aus der Summe holen}\\ &= 1 + \sum\limits^{n+1}_{k = 1} \displaystyle{n + 1 \choose k} \frac{1}{n^k}\\ & \quad\downarrow \text{Indexverschiebung}\\ &= 1 + \sum\limits^{n}_{k = 0} \displaystyle{n + 1 \choose k + 1} \frac{1}{n^{k+1}}\\ &= 1 + \sum\limits^{n}_{k = 0} \frac{(n+1)n(n-1)(n-2)\cdots(n - (k - 1))}{(k + 1)!} \frac{1}{n^{k+1}}\\ & \quad\downarrow \text{Nenner der Brüche vertauschen}\\ &= 1 + \sum\limits^{n}_{k = 0} \frac{(n+1)n(n-1)(n-2)\cdots(n - (k - 1))}{n^{k+1}} \frac{1}{(k + 1)!}\\ & \quad\downarrow \text{Alle Faktoren im ersten Zähler sind $\geq n - (k - 1)$}\\ &\geq 1 + \sum\limits^{n}_{k = 0} \frac{(n - (k - 1))^{k+1}}{n^{k+1}} \frac{1}{(k + 1)!}\\ &= 1 + \sum\limits^{n}_{k = 0} \left(1 - \frac{k - 1}{n}\right)^{k+1} \frac{1}{(k + 1)!}\\ & \quad\downarrow \text{Bernoullische Ungleichung } (1 - x)^n \geq 1 - nx\\ &\geq 1 + \sum\limits^{n}_{k = 0} \left(1 - \frac{(k - 1)(k+1)}{n}\right) \frac{1}{(k + 1)!}\\ &= 1 + \sum\limits^{n}_{k = 0}\frac{1}{(k + 1)!} - \frac{1}{n}\sum\limits^{n}_{k = 0}\frac{(k - 1)(k+1)}{(k + 1)!}\\ & \quad\downarrow \text{Indexverschiebung in 1. Summe}\\ &= \left(1 + \sum\limits^{n + 1}_{k = 1}\frac{1}{k!}\right) + \left(- \frac{1}{n}\sum\limits^{n}_{k = 0}\frac{(k - 1)}{k!}\right)\\ & \quad\downarrow \text{Aufnahme von $1 = 1/0!\,$ in 1. Summe}\\ &= \left(\sum\limits^{n + 1}_{k = 0}\frac{1}{k!}\right) + \left(- \frac{1}{n}\sum\limits^{n}_{k = 0}\frac{(k - 1)}{k!}\right)\\ & \quad\downarrow \text{letzten Summanden aus 1. Summe weglassen}\\ &\geq \left(\sum\limits^{n}_{k = 0}\frac{1}{k!}\right) + \underbrace{\left(- \frac{1}{n}\sum\limits^{n}_{k = 0}\frac{(k - 1)}{k!}\right)}_{\geq 0}\\ &\geq \sum\limits^{n}_{k = 0}\frac{1}{k!} = s_n\\ \end{align*}\]

Dass der 2. geklammerte Term nicht negativ ist, ist natürlich nicht offensichtlich. Das zeigen wir nun separat:

\[\begin{align*} -\frac{1}{n}\sum\limits^{n}_{k = 0}\frac{(k - 1)}{k!} & \quad\downarrow \text{Herausziehen des $k= 0$ Summanden}\\ &= -\frac{1}{n}\left(-1 + \sum\limits^{n}_{k = 1}\frac{(k - 1)}{k!}\right)\\ &= -\frac{1}{n}\left(-1 + \sum\limits^{n}_{k = 1}\left(\frac{k}{k!} - \frac{1}{k!}\right)\right)\\ &= -\frac{1}{n}\left(-1 + \sum\limits^{n}_{k = 1}\left(\frac{1}{(k - 1)!} - \frac{1}{k!}\right)\right)\\ &= -\frac{1}{n}\left(-1 + \left(\frac{1}{0!} - \frac{1}{1!} + \frac{1}{1!} - \frac{1}{2!} + \frac{1}{2!} \mp \ldots - \frac{1}{(n - 1)!} + \frac{1}{(n - 1)!} - \frac{1}{n!}\right)\right)\\ & \quad\downarrow \text{Ausnutzung der Teleskopsumme}\\ &= -\frac{1}{n}\left(-1 + \left(\frac{1}{0!} - \frac{1}{n!}\right)\right)\\ &= -\frac{1}{n}\left(-1 + 1 - \frac{1}{n!}\right)\\ &= -\frac{1}{n}\left(- \frac{1}{n!}\right)\\ &= \frac{1}{n\cdot n!} > 0 \end{align*}\]

Damit haben wir mit \((e_n)\) und \((\bar{e}_n)\) zwei Folgen, die gegen den gleichen Grenzwert konvergieren (auto und auto-no) und die Teilsummenfolge von oben und unten begrenzen. Damit gilt nach dem Sandwich-Theorem:

\[\liminf{N}e_n = \liminf{N}s_n = \liminf{N}\bar{e}_n.\]

Da wir definiert haben, dass der Reihenwert \(\liminf{N}s_n\) die Eulersche Zahl ist, konvergieren auch die beiden Folgen gegen \(e\).

Fall \(x \in \N\):

Wir haben bisher nur den zweiten Teil der Aussage bewiesen. Die allgemeine Aussage ist sehr anschaulich für eine natürliche Zahl \(x = m \in \N\):
Für eine konvergente Folge konvergiert jede Teilfolge gegen den gleichen Grenzwert. Betrachten wir also die Teilfolge \((e_{mn})\), also

\[e_{mn} = \left(1 + \frac{1}{mn}\right)^{mn},\]

dann muss diese gegen denselben Grenzwert wie \(e_n\), also gegen \(e\) konvergieren. Wenn wir nun für die allgemeinere Folge der ersten Aussage

\[\left(1 + \frac{m}{n}\right)^n\]

ebenfalls die \(mn\)-te Teilfolge betrachten, ergibt sich:

\[\liminf{n} \left(1 + \frac{m}{mn}\right)^{mn} = \liminf{n} \left(1 + \frac{1}{n}\right)^{mn} = \left(\liminf{n} \left(1 + \frac{1}{n}\right)^{n}\right)^m = e^m.\]

Fall \(x \in \R\):

Für \(x = 0\) ist die Aussage trivial. Für \(x < 0\) lässt sich die Argumentation auf einen Fall \(x > 0\) zurückführen, denn es gilt (Beweis zur Übung):

\[\liminf{n}\left(1 - \frac{x}{n}\right)^n = \frac{1}{\liminf{n}\left(1 + \frac{x}{n}\right)^n}.\]

Wir müssen also den Satz nur für \(x > 0\) beweisen. Wenn Sie aber erneut den Beweis für \(x = 1\) durchgehen, werden Sie feststellen, dass Sie lediglich in den Termen \(x^k\) hinzufügen müssen. Alle Umformungen bleiben wahr (da \(x^k > 0\)), die Terme werden nur etwas länger.

Exponentialreihe und Exponentialfolge(n) visualisieren

Diese Visualisierung zeigt die Exponentialreihe \(\sum^\infty_{k=0}\frac{1}{k!}\) und die beiden Exponentialfolgen \(\left(1+\frac{1}{n}\right)^n\) und \(\left(1+\frac{1}{n}\right)^{n+1}\), welche alle gegen \(e\) konvergieren. Man sieht gleich, dass die Exponentialreihe viel schneller konvergiert.

Es gibt noch weitere Darstellungen der Eulerschen Zahl z.B. \(e = \liminf{n} \frac{n}{\sqrt[n]{n!}}\), die wir hier aber nicht beweisen werden. Manche Beweise werden mit der Folgendarstellung der Exponentialreihe deutlich einfacher. Zum Beispiel könnten wir erneut zeigen, dass gilt \[\begin{align*}\exp(x)\exp(y) &= \liminf{n}\left(1 + \frac{x}{n}\right)^n \liminf{n}\left(1 + \frac{y}{n}\right)^n\\ &= \liminf{n}\left(\left(1 + \frac{x}{n}\right)\left(1 + \frac{y}{n}\right)\right)^n \\ &= \liminf{n}\left(1 + \frac{x + y}{n} + \frac{xy}{n^2}\right)^n \\ &= \liminf{n}\left(1 + \frac{x + y}{n}\right)^n \\ &= \exp(x + y)\end{align*}.\]

Den vorletzten Umformungsschritt müsste man noch mit dem binomischen Lehrsatz begründen, aber ansonsten würden Sie vermutlich zustimmen, dass dieser Beweis einfacher von der Hand geht als unsere erste Variante mit Cauchy-Produkten.

Komplexe Folgen und Reihen

Zum Abschluss des Kapitels wollen wir noch ein paar Worte zu Folgen und Reihen komplexer Zahlen verlieren. Besonders die komplexe Exponentialreihe wird uns noch häufiger begegnen, da diese in der Praxis häufig genutzt wird. Welche Eigenschaften aus Kapitel 3 können wir auch auf komplexe Folgen und Reihen anwenden und welche nicht? Der Unterschied zwischen \(\R\) und \(\C\) ist, dass wir zwei reelle Zahlen vergleichen (ordnen) können, zwei komplexe Zahlen jedoch nicht. Da es bei Folgen und Reihen immer wieder um Größenvergleiche ging, liegt der Schluss nahe, dass die meisten Sätze im Komplexen nicht anwendbar sind. Allerdings fällt bei genauerer Betrachtung auf, dass die meisten Aussagen lediglich eine Menge erfordern, auf der eine Metrik definiert ist (sogenannte metrische Räume). Somit können wir fast alle Sätze auch auf komplexe Folgen und Reihen anwenden. Sätze, in denen betragsfreie Größenvergleiche vorkommen (wie im Sandwich-Theorem) können wir ebenfalls auf komplexe Reihen übetragen. Dazu betrachten wir den Betrag der zu vergleichenden Größen.

Als das prominenteste Beispiel betrachten wir die komplexe Exponentialreihe

Die komplexe Exponentialreihe ist für \(z \in \C\) definiert als

\[\exp(z) = \sum\limits^\infty_{k=0} {\frac{z^k}{k!}} .\]

Die Reihe konvergiert für alle \(z \in \C\) absolut nach dem Quotientenkriterium, da

\[\liminf{k}\left| \frac{|z|^{k + 1} k!}{|z|^k (k+1)!} \right| = |z|\liminf{k} \frac{k!}{(k+1)!} = |z|\liminf{k}\frac{1}{k+1} = 0 < 1.\]

Sie sehen, dass der Beweis analog zum Konvergenzbeweis der reellwertigen Exponentialreihe funktioniert und genauso lassen sich alle Eigenschaften aus auto bis auf \(\exp(x) > 0\) auch auf komplexwertige Argumente übertragen.

Demo: Komplexe Exponentialreihe

Für komplexe Potenzreihen ist der Konvergenzradius tatsächlich der Radius eines Kreises in der komplexen Ebene, dies können Sie in der folgenden Demo für die komplexe geometrische Reihe ausprobieren:

Demo: Konvergenzradius der komplexen geometrischen Reihe mit Entwicklungspunkt

Hier plotten wir die komplexe geometrische Reihe \(\sum\limits^\infty_{k=0} {(z-z_0)^k}\) mit Entwicklungspunkt \(z_0 \in \C\). Es werden jeweils die ersten \(m\) Teilsummen angezeigt. Der Wert von \(m\) lässt sich über den Slider verändern. Sie können für die angezeigte Reihe den Wert \(z\) und \(z_0\) verändern, indem sie diese Punkte mit der Maus verschieben. Dabei lässt sich leicht erkennen, dass die Reihe für \(z\)-Werte innerhalb des Kreises konvergiert und sonst divergiert. Denn für die komplexe geometrische Reihe mit Entwicklungspunkt \(z_0\) gilt die Konvergenzbedingung \(\abs{z-z_0} < 1\). Testen Sie auch aus, was nahe am Rand, bzw. am Übergang über den Rand passiert.

Funktionen

Funktionen sind ein zentrales Hilfsmittel, um den Zusammengang zwischen abhängigen Größen formal zu beschreiben. Sie werden damit in praktisch allen Wissenschaftsbereichen eingesetzt. In der Informatik existiert das klassische Konzept der Funktion, die ein Programmstück beschreibt, das aus den Werten der Eingabeparameter einen Resultatwert berechnet. Die theoretische Informatik beschäftigt sich unter anderem damit, welche Funktionen überhaupt auf einem Rechner, wie er heute genutzt wird, berechenbar sind und wie hoch der Berechnungsaufwand ist. Zur Darstellung des Berechnungsaufwandes wird dieser oft in Abhängigkeit von einer Eingabegröße mit einigen typischen Funktionen verglichen. Neben dem Berechnungsaufwand spielt natürlich auch die Genauigkeit der Berechnungen eine Rolle. Im Rechner wird immer nur mit endlicher Genauigkeit gearbeitet. Deshalb müssen viele Elemente aus \(\R\) durch rationale Zahlen approximiert werden, so dass fast alle Berechnungen streng genommen nur Approximationen sind. Der Approximationsgüte widmet sich die Numerik, die an der Grenze zwischen angewandter Mathematik und Informatik angesiedelt ist.

Seien \(A\) und \(B\) zwei nichtleere Mengen. Eine Funktion \(f\) ist eine Vorschrift, die jedem Element \(x \in A\) ein eindeutiges Element \(y \in B\) zuordnet. Wir schreiben auch \(f: A \to B\). Das zugeordnete Element \(y \in B\) schreiben wir auch als \(f(x)\).

Wir nennen \(A\) den Definitionsbereich der Funktion und \(B\) den Bild- oder Zielbereich der Funktion.

Wir nennen die Menge \(f(A) \subseteq B\) mit \(f(A) = \set{f(x) \mid x \in A}\) Bildmenge oder Bild von \(f.\)

Wir haben uns bisher bereits mit speziellen Funktionen beschäftigt, die von jeder natürlichen Zahl \(n \in \N\) auf eine reelle Zahl \(a_n \in \R\) abbilden. Diese speziellen Funktionen haben wir Folgen (und Reihen) genannt. In der Analysis beschäftigt man sich aber in den meisten Fällen mit Funktionen, deren Definitionsbereich die gesamten reellen Zahlen oder ein bestimmtes Teilintervall der reellen Zahlen ist.

Verinnerlichen Sie die Unterschiede von Definitionsbereich, Bildbereich und dem Bild von \(f\). Wenn wir für eine Funktion \(f\) schreiben \(f : \R \to \R\), dann ist für den Definitionsbereich entscheidend, dass die Funktion auch für alle \(x \in \R\) definiert ist. Wir könnten also zum Beispiel nicht \(f(x) = \frac{1}{x}\) auf ganz \(\R\) definieren, da die Funktion für \(0\) nicht definiert wäre. Der Bildbereich dagegen darf mehr Elemente enthalten, als wir mit \(f\) tatsächlich erreichen. Hier können wir also für reellwertige Funktionen stets alle reellen Zahlen angeben, denn nicht jedes Element des Bildbereichs muss getroffen werden (das Bild von \(f\) ist eine Teilmenge der Bildmenge von \(f\)). Für \(f(x) = x^2\) wäre es also vollkommen legitim zu schreiben \(f: \R \to \R\), obwohl das Bild von \(f\) nur \(f(\R) = \R_{\geq 0}\) ist. Achten Sie darauf, das Bild und den Bildbereich von \(f\) nicht gleichzusetzen.

Wir können Funktionen auch aus Teilbereichen zusammensetzen:

Wir können auch sehr merkwürdige Funktionen definieren, die man sich gar nicht mehr richtig vorstellen kann:

Auch wenn wir in dieser Veranstaltung stets Funktionen betrachten werden, die von Zahlen auf Zahlen abbilden, ist der Funktionsbegriff für allgemeine Mengen definiert und nichts hält uns im Allgemeinen davon ab, Funktionen zwischen beliebigen Mengen zu definieren:

Bei der Definition zusammengesetzter Funktionen muss darauf geachtet werden, dass man jedem \(x\) ein eindeutiges Ziel zuordnet. Es darf also niemals zwei verschiedene Bildwerte für dasselbe \(x\) geben.

Wenn Definitions- und Bildbereich ein Teil der reellen Zahlen sind, dann kann man eine Funktion auch mit einem sogenannten Graphen assoziieren. Dazu definiert man für eine Funktion \(f: A \to B\) den Graphen als \[\Gamma_f \mathrel{:=} \set{ (x,y) \in \R \times \R \mid x \in A \and y = f(x) },\] also die Menge aller Tupel \((x,f(x))\), welche wir zur Visualisierung in einem \(x\)-\(f(x)\)-Diagramm (wird auch häufig \(x\)-\(y\)-Diagramm genannt) darstellen können. Es gibt Funktionen, wie die oben definierte Dirichlet-Funktion, die sich nicht sinnvoll zeichnen lassen. Im Folgenden zeigen wir ein paar Beispiele für Funktionsgraphen.

skript-page-code-e9180712.gnuplot.svg

Bevor wir zum Hauptthema dieses Kapitels (der Stetigkeit) kommen können, starten wir mit ein paar grundlegenden Definitionen für Funktionen, damit wir diese besser in ihren Eigenschaften beschreiben können.

Grundlegende Funktionseigenschaften

  1. Eine Funktion \(f: A \to B\) heißt injektiv, wenn zu jedem \(y \in B\) höchstens ein \(x \in A\) mit \(f(x) = y\) gehört. In Kurzschreibweise: \[\forall x_1,x_2 \in A \gilt \big( x_1 \neq x_2 \;\Rightarrow\; f(x_1) \neq f(x_2) \big)\]

  2. Eine Funktion \(f: A \to B\) heißt surjektiv, wenn jedes \(y \in B\) als Abbild mindestens eines \(x \in A\) auftaucht. In Kurzschreibweise: \[\forall y \in B \; \exists x \in A \gilt f(x) = y\]

  3. Eine Funktion \(f: A \to B\) heißt bijektiv, wenn sie injektiv und surjektiv ist.

../images/insurbijektiv.svg

\(f(x) = x^2\) ist bijektiv auf \(A=\R_{\geq 0}\), \(B=\R_{\geq 0}\)

Um dies zu zeigen, müssen wir die Injektivität und die Surjektivität zeigen:

Injektivität:
Wenn \(x \neq y\), dann muss entweder \(x > y\) oder \(x < y\) gelten. Daraus folgt aber sofort nach auto, dass auch \(x^2 > y^2\) bzw. \(x^2 < y^2\) gelten muss, also \(x^2 \neq y^2\). Damit ist die Injektivität bewiesen. Alternativ könnte man auch die Kontraposition der Injektivitätsbedingung betrachten: \[f(x_1) = f(x_2) \Rightarrow x_1 = x_2\] Diese Aussage könnte man mit der Eindeutigkeit der Quadratwurzeln beweisen.

Surjektivität:
Die Surjektivität besagt, dass für jedes \(y \in \R_{\geq 0}\) ein \(x \in \R_{\geq 0}\) existieren muss, sodass \(x^2 = y\). Dies haben wir bereits mehrfach mit der Existenz von Quadratwurzeln gezeigt.

Damit ist die Funktion \(f(x) = x^2\) bijektiv, wenn sie auf die positiven reellen Zahlen eingeschränkt wird.

Betrachten wir dagegen \(f(x)\) als Funktion \(f: \R \to \R\), dann ist sie weder injektiv noch bijektiv. Sie ist nicht injektiv, da \(f(-x) = x^2 = f(x)\). Sie ist nicht surjektiv, da für \(f(x) < 0\) kein \(x\) existiert mit \(x^2 = f(x) < 0\) (Nach auto(f)).

Für surjektive und bijektive Funktionen ist \(B = f(A)\). Wir können den Definitionsbereich auch auf ein Teilintervall einschränken und sagen, dass \(f\) auf diesem Teilintervall bijektiv ist. Die Eigenschaften haben unter anderem eine Bedeutung bei der Lösung von Gleichungen der Form \(f(x)=y\). Falls \(f\) injektiv ist, gibt es höchstens eine Lösung, falls \(f\) surjektiv ist, gibt es mindestens eine Lösung.

Die beiden folgenden Definitionen beschreiben die Kombination von Funktionen zur Erzeugung neuer, zusammengesetzter Funktionen. Wir werden später untersuchen, welche Eigenschaften der Funktionen sich auf die zusammengesetzten Funktionen übertragen.

Seien \(f,g: A \to \R\) Funktionen und \(c \in \R\). Dann sind die Funktionen
\(f + g: A \to \R\), \(c f: A \to \R\), \(fg: A \to \R\) definiert durch \[\begin{array}{lll} (f+g) (x) & := & f(x) + g(x), \\ (cf) (x) & := & c f(x),\\ (f\cdot g)(x) & := & f(x)g(x). \end{array}\] Sei \(A' := \lbrace x \in A \mid g(x) \neq 0 \rbrace\), dann ist die Funktion \(\frac{f}{g}: A' \to \R\) definiert durch \[\left(\frac{f}{g}\right) (x) := \frac{f(x)}{g(x)}.\]

Seien \(f: A \to \R\) und \(g: B \to \R\) Funktionen und \(f(A) \subseteq B\). Dann ist die Funktion \(g \circ f: A \to \R\) definiert durch \((g \circ f) (x) = g(f(x))\).

Sei \(f: \R\to \R_{\ge 0}\) durch \(f(x) = \exp(x)\) definiert und \(g: \R_{\geq 0} \to \R\) durch \(g(x) = \sqrt{x}\).
Dann ergibt sich die Komposition \((g\circ f ) (x) = g (f (x)) = \sqrt{\exp(x)}\).

Eine besondere Komposition ergibt sich, wenn die beiden Funktionswirkungen sich gegenseitig aufheben, also \(f(g(x)) = x\) gilt. In diesem Fall spricht man davon, dass \(g\) die Umkehrfunktion von \(f\) ist.

Für eine Funktion \(f:A\to B\) nennen wir \(f^{-1} : B \to A\) die Umkehrfunktion von \(f\), wenn die folgenden beiden Eigenschaften gelten:

Wir können Umkehrfunktionen auf dem Bildbereich \(B\) nur dann und genau dann definieren, wenn \(f\) bijektiv ist.

Für eine Funktion \(f : A \to B\) existiert die Umkehrfunktion genau dann, wenn \(f\) bijektiv ist.

Beweis

Richtung 1: \(f\) ist bijektiv \(\Rightarrow\) Umkehrfunktion existiert.

Die Bijektivität bedeutet, dass die Zuordnung von \(f\) in beide Richtungen eindeutig ist, zu jedem \(x\) existiert also ein eindeutiger Funktionswert \(f(x)\) und zu jedem \(f(x)\) ein eindeutiges \(x\). Damit können wir die Zuordnung umkehren und somit die Umkehrfunktion definieren.

Richtung 2: Umkehrfunktion existiert \(\Rightarrow\) \(f\) ist bijektiv.

Die Umkehrfunktion muss als Funktion eine eindeutige Zuordnung von \(f(x)\) zu \(x\) sein. Daraus folgt, dass \(f\) injektiv ist. Außerdem kann die Umkehrfunktion nur dann auf \(B\) definiert sein, wenn es ein \(x \in A\) gibt für alle \(y \in B\) mit \(f(x) = y\). Damit muss \(f\) surjektiv sein.

Häufig werden nicht-bijektive Funktionen \(f\) auf ein Teilintervall des Definitionsbereichs eingeschränkt, auf dem sie bijektiv sind. Für dieses gibt man anschließend eine Umkehrfunktion an.

Der Unterschied zwischen der zweiten und dritten Definition im letzten Beispiel kann leicht übersehen werden. Man sollte sich daher angewöhnen, für die Definition von Umkehrfunktionen ganz genau auf Definitions- und Bildbereich zu achten. Übrigens: Wenn wir wissen, dass \(f\) bijektiv ist, genügt es eine der beiden Bedingungen aus auto für eine mögliche Umkehrfunktion zu prüfen, da die zweite dann aus der ersten folgt.

Als Nächstes übertragen wir ein paar Definitionen der Folgen auf allgemeine Funktionen.

Eine Funktion \(f: A \to \R\) heißt nach oben beschränkt, nach unten beschränkt bzw beschränkt, wenn die Bildmenge \(f(A)\) die jeweilige Eigenschaft besitzt.

Eine Funktion ist also nach oben beschränkt, wenn es für alle \(x \in A\) ein \(K_1 \in \R\) gibt mit \(K_1 \geq f(x)\) bzw. nach unten beschränkt, wenn es ein \(K_2 \in \R\) gibt mit \(K_2 \leq f(x)\). Wir werden für beschränkte Funktionen auch häufiger \(K = \max\set{\abs{K_1}, \abs{K_2}}\) nutzen, da wir damit die beiden Beschränktheitsbedingungen kompakt als \[\abs{f(x)} < K ,\; \forall x \in A\] schreiben können.

Sei \(A \subseteq \R\) und \(f:A\to \R\) eine Funktion, \[\text{dann heißt } f \begin{cases} \text{monoton wachsend}, &\text{falls } f(x) \leq f(x')\\ \text{streng monoton wachsend}, &\text{falls } f(x) < f(x')\\ \text{monoton fallend}, &\text{falls } f(x) \geq f(x')\\ \text{streng monoton fallend}, &\text{falls } f(x) > f(x') \end{cases} \] für alle \(x, x' \in A\) mit \(x < x'\).

  1. Die Identitätsfunktion ist (streng) monoton wachsend, da aus \(x < x'\) offensichtlich \(f(x) = x < f(x') =x'\) folgt.

  2. Die konstante Funktion \(f(x) = c\) ist monoton wachsend und fallend, da \(c \leq c\) gilt.

  3. Die Funktion \(f(x) = x^2\) ist streng monoton wachsend auf dem Intervall \(\left[ 0, \infty \right)\) und streng monoton fallend auf dem Intervall \(\left( - \infty , 0 \right]\)

    Beweis (siehe auch auto):
    \(x, x' \in [0, +\infty)\): Im Fall von \(0 = x < x'\) folgt \(0 = x^2 < (x')^2\). Für die restlichen Fälle ist \[0 < x < x' \Rightarrow \left((xx' < x'x') \and (xx < xx')\right) \Rightarrow x^2 < xx' < (x')^2.\] \(x, x' \in (-\infty,0]\): Im Fall von \(x < x' = 0\) folgt \(x^2 > 0 = (x')^2\). Für die restlichen Fälle ist \[x < x' \Rightarrow \left((xx' > x'x') \and (xx > xx')\right) \Rightarrow x^2 > xx' > (x')^2.\]

Aus strenger Monotonie können wir unter anderem die Injektivität der Funktion folgern und damit die Existenz einer Umkehrfunktion (auf dem Bild von \(f\)). Dies ist eine einfache Möglichkeit zu zeigen, dass eine Umkehrfunktion existiert.

Sei \(A \subseteq \R\) und \(f: A \to B\) eine Funktion mit \(B := f(A) \subseteq \R\).

Ist \(f\) streng monoton, dann existiert die Umkehrfunktion \(f^{-1}: B \to A\) und ist ebenfalls streng monoton (im gleichen Sinne).

Beweis

Aus der strengen Monotonie folgt \(x \neq x' \Rightarrow f(x) \neq f(x')\) und damit ist \(f\) injektiv. Da \(B = f(A)\) ist \(f\) surjektiv. Damit ist \(f\) bijektiv und die Umkehrfunktion \(g(x) = f^{-1}(x)\) existiert. Es bleibt also noch die Monotonie der Umkehrfunktion zu zeigen.

Wir betrachten den Fall, dass \(f\) streng monoton wachsend ist. Seien \(y_1, y_2 \in f(A)\) mit \(y_1 < y_2\) gegeben. Zu zeigen ist \(g(y_1) < g(y_2)\).

Wäre \(g(y_1) = g(y_2)\), dann wäre \[y_1 = f(g(y_1)) = f(g(y_2)) = y_2,\] da \[(f \circ g)(x) = (f \circ f^{-1})(x) = x.\] Analog folgt aus \(g(y_1) > g(y_2)\), dass \[y_1 = f(g(y_1))>f(g(y_2)) = y_2,\] was im Widerspruch zu \(y_1 < y_2\) steht (↯). Damit bleibt nur \(g(y_1) < g(y_2)\).

Den Fall der streng fallenden Monotonie beweist man analog.

Sei \(f: \R_{>0} \to \R_{>0}\) mit \(f(x)= x^k\), \(k \in \N\) und \(k \geq 2\).

\(f\) ist (nach auto) streng monoton wachsend und bildet von \(\R_{>0}\) bijektiv auf \(\R_{>0}\) ab. Die Umkehrfunktion \(f^{-1}: \R_{>0} \to \R_{>0}\) mit \(f^{-1}(x) = \sqrt[k]{x}\) existiert nach dem vorigen Satz und ist ebenfalls streng monoton wachsend.

skript-page-code-a348acf1.gnuplot.svg

Grenzwerte von Funktionen

Wir haben uns bereits in Kapitel 3 eingehend mit Grenzwerten von Folgen und Reihen (also einer speziellen Art von Funktionen) beschäftigt. Wir wollen nun diesen Grenzwertbegriff auf beliebige Funktionen verallgemeinern, damit klar ist, was wir meinen, wenn wir z.B.

\[\lim_\limits{x \to 5} f(x)\]

schreiben. Diese Funktionsgrenzwerte werden uns für den Rest der Veranstaltung begleiten, da sie für die Differential- und Integralrechnung essenziell sind. Damit wir im obigen Beispiel den Grenzwert bei \(x = 5\) bestimmen können, muss entweder \(x = 5\) selbst zum Definitionsbereich gehören, oder es muss Elemente im Definitionsbereich geben, die \(x = 5\) beliebig nahe kommen. Die Funktion könnte also zum Beispiel auch auf \([1,5)\) definiert sein. Diese beiden Fälle fasst man unter dem Begriff des Berührpunktes zusammen.

Sei \(A \subseteq \R\) und \(a \in \R\). Dann ist \(a\) ein Berührpunkt von \(A\), falls in jeder \(\eps\)-Umgebung von \(a\), d.h. im Intervall \((a-\eps,\, a+\eps)\) mit \(\eps > 0\), mindestens ein Element aus \(A\) liegt.

Dies ist äquivalent zu der Aussage, dass es eine Folge \((x_n)\) gibt, deren Folgenglieder im Definitionsbereichs von \(f\) liegen und die gegen \(a\) konvergiert, also \(\liminf{n} x_n = a\). Für \(A = \R_{>0}\) sind also alle \(x \geq 0\) (auch \(0\) selbst) Berührpunkte, \(x = -1\) aber nicht. In den meisten Fällen ist dies sofort durch den Definitionsbereich klar und man muss sich meist keine großen Gedanken um Berührpunkte machen. Kommen wir also zur allgemeinen Grenzwertdefinition für Funktionen:

Sei \(f: A \to \R\) mit \(A \subseteq \R\) und \(a \in \R\) ein Berührpunkt von \(A\).

Man definiert dann \(\limto{x}{a} f(x) = c\) für ein \(c \in \R\), falls für jede Folge \((x_n)_{n\in\N}\) mit \(x_n \in A\), die gegen \(a\) konvergiert, gilt, dass die Folge der Funktionswerte \(f(x_n)\) gegen \(c\) konvergiert, also \[\liminf{n} x_n = a \quad \Rightarrow \quad \liminf{n} f(x_n) = c.\]

Analog definieren wir:

Achtung: Wir sprechen nur von einem Grenzwert, wenn \(c \in \R\), also sind \(c = \pm \infty\) keine gültigen Grenzwerte. Wir werden später häufig Sätze sehen in denen ‘wenn der Grenzwert existiert’ ein Teil der Aussage ist. Dafür muss der Grenzwert eine reelle Zahl sein. Wir werden später noch sogenannte uneigentliche Grenzwerte einführen, die den Fall \(c = \pm \infty\) behandeln.

Wir haben also Grenzwerte von Funktionen über Folgengrenzwerte definiert. Unser Wissen über Folgengrenzwerte aus dem letzten Kapitel können wir also auch hier wieder nutzen. Oft ist es hilfreich den Definitionsbereich in zwei Teilbereiche zu trennen:

Sei \(f \colon A \subseteq \R \to \R\) eine Funktion und \(c\in\R\). Dann definieren wir

  1. Den rechtsseitigen Grenzwert: \[\rlimto{x}{a} f(x) = c ,\] wenn \(a\) ein Berührpunkt von \(A \cap (a, \infty )\) ist und für jede Folge \((x_n)_{n \in \N}\) mit \(x_n \in A\), \(x_n > a\) und \(\liminf{n} x_n = a\) gilt: \(\liminf{n} f(x_n) = c.\)

  2. Den linksseitigen Grenzwert: \[\llimto{x}{a} f(x) = c ,\] wenn \(a\) ein Berührpunkt von \(A \cap (-\infty, a)\) ist und für jede Folge \((x_n)_{n \in \N}\) mit \(x_n \in A\), \(x_n < a\) und \(\liminf{n} x_n = a\) gilt: \(\liminf{n} f(x_n) = c.\)

Man spricht auch vom Grenzwert “von oben” (rechtsseitiger) und “von unten” (linksseitig). Manchmal sieht man auch die Schreibweise \(\lim\limits_{x \to a^-} f(x)\) für den linksseitigen und \(\lim\limits_{x \to a^+} f(x)\) für den rechtsseitigen Grenzwert.

  1. Für \(f : \R \to \R\) mit \(f(x)=x^2\) gilt \(\limto{x}{a} f(x) = a^2\), denn für jede Folge \((x_n)\) mit \(\liminf{n} x_n = a\) gilt nach den Rechenregeln für konvergente Folgen (auto) \[ \liminf{n} f(x_n) = \liminf{n} x_n^2 = \left( \liminf{n} x_n \right) \cdot \left( \liminf{n} x_n \right) = a^2. \]

  2. Die Funktion \(f : \R \to \R\) mit \(f(x) = \begin{cases}1 &\text{ für } x \neq 1\\ 2 &\text{ für } x = 1\end{cases} \;\) hat keinen Grenzwert bei \(x=1\), denn für die Folge \(a_n = 1\) konvergiert \(f(a_n)\) gegen \(f(1) = 2\), aber für die Folge \(b_n = 1 + 1/n > 1\) konvergiert \(f(b_n)\) gegen \(1\). Somit gibt es zwei Folgen, die beide gegen \(x=1\) konvergieren und deren Funktionswerte sogar denselben Grenzwert haben, aber dieser Grenzwert ist ungleich \(f(1)\): \[\llimto{x}{1} (x) = \rlimto{x}{1} f(x) = 1 \neq f(1).\]

Die Rückrichtung dieses Satzes eignet sich besonders gut, um Grenzwerte zusammengesetzter Funktionen zu bestimmen, oder zu zeigen, dass diese nicht existieren. Mit dem Werkzeugt der Grenzwertbestimmung gerüstet, können wir uns nun dem Hauptthema dieses Kapitels widmen: der Stetigkeit.

Stetige Funktionen

Für die weiteren Untersuchungen von Funktionen ist es oft notwendig, dass die betrachtete Funktion ein “gutmütiges Verhalten” besitzt. Damit wollen wir die Sprünge einer Funktion, wie wir sie im letzten Beispiel gesehen haben, ausschließen. Anders gesagt: Wenn wir eine beliebige Folge betrachten, die gegen einen Grenzwert \(a\) konvergiert, dann ist unser gewünschtes “gutartiges Verhalten”, dass die Funktionswerte der Folge gegen \(f(a)\) konvergieren. Dies fasst man unter dem Begriff der Stetigkeit zusammen.

Sei \(f: A \to \R\) eine Funktion und \(a \in A\). Die Funktion \(f\) heißt stetig im Punkt \(a\), falls \[\limto{x}{a} f(x) = f(a).\]

\(f\) heißt stetig (in \(A\)), falls \(f\) in jedem Punkt aus \(A\) stetig ist.

  1. Die konstante Funktion \(f:\R \to \R\) mit \(f(x) = c\) ist überall stetig, da für jede Folge \((x_n)\) die (konstante) Folge der Funktionswerte \(\left(f(x_n)\right)\) gegen \(c\) konvergiert.

  2. Die Funktion \(f: \R \to \R\), \(f(x) = x^2\) ist in jedem Punkt stetig nach auto.

  3. Die Heaviside-Funktion \(f: \R\to \R\) \[ f(x) = \begin{cases} 1 & \text{für}\;\; x \geq 0 \\ 0 & \text{für}\;\; x<0 \end{cases} \] ist in jedem \(x \in \R \setminus \set{0}\) stetig (dort ist der Beweis analog zu 1.) und ist nicht stetig in \(0\), da \(\rlimto{x}{0} f(x) = 1 \neq \llimto{x}{0} f(x) = 0\).

  4. Die Dirichlet-Funktion \[ f(x) = \begin{cases} 1 & \text{falls } x \in \Q, \\ 0 & \text{falls } x \in \R \setminus \Q . \end{cases} \] ist in keinem Punkt stetig. Zum Beweis betrachten wir für ein \(a \in \Q\) die Folge \(a_n = a + \frac{\sqrt{2}}{n}\), die offensichtlich gegen \(a\) konvergiert. Allerdings ist \(\sqrt{2} \notin \Q\) und somit auch jedes Folgenglied von \(a_n\): Also ist \(f(a_n) = 0\ \forall n \in \N\) und damit \[\liminf{n}f(a_n) = 0 \neq f(a) = 1 .\] Analog können wir uns für ein \(b \in \R \setminus \Q\) eine Folge \((b_n)\) konstruieren (zum Beispiel über eine Intervallschachtelung) die gegen \(b\) konvergiert, aber deren Folgenglieder alle rational sind, wodurch mit \[\liminf{n}f(b_n) = 1 \neq f(b) = 0\ \] folgt, dass die Dirichlet-Funktion auch in keinem irrationalen Punkt stetig ist.

auto kann man auch so ausdrücken, dass wir für stetige Funktionen (bzw. an stetigen Stellen der Funktion) den Limes in die Funktion ziehen dürfen, also: \[ \lim\limits_{x \to a} f(x) = f\left(\lim\limits_{x \to a}x\right) = f(a) . \] Dies nutzen wir, um zu zeigen, dass die Exponentialfunktion \(\exp(x)\) stetig ist.

Die Exponentialfunktion \(\exp:\R \to \R, \exp(x) = \sum\limits^\infty_{k=0} {\frac{x^k}{k!}}\) ist für alle \(x \in \R\) stetig.

Für den Beweis zeigen wir zunächst, dass die Funktion in \(x = 0\) stetig ist. Sei dazu \((x_n)\) eine beliebige Nullfolge, dann gibt es ein \(n_0\), sodass für alle \(n \geq n_0\) gilt \(|x_n - 0| = |x_n| < 1\). Wir zeigen damit nun, dass \(\exp(x_n)\) gegen \(\exp(0)\) konvergiert:

\[ \begin{align*} 0 \leq \abs{\exp(x_n) - \exp(0)} &= \abs{\exp(x_n) - 1} = \abs{ \left( \sum^\infty_{k=0} \frac{x_n^k}{k!} \right) - 1 } = \abs{ \sum^\infty_{k=1} \frac{x_n^k}{k!} } \\ &\leq \sum^\infty_{k=1} \frac{\abs{x_n}^k}{k!} \leq \sum^\infty_{k=1} \abs{x_n}^k \\ &= \left( \sum^\infty_{k=0} \abs{x_n}^k \right) - \abs{x_n}^0 = \frac{1}{1-\abs{x_n}} - 1 = \frac{\abs{x_n}}{1 - \abs{x_n}} \end{align*} \]

Da \(x_n\) eine Nullfolge ist konvergiert \(\frac{\abs{x_n}}{1 - \abs{x_n}}\) gegen \(0\). Es folgt nach dem Sandwich-Theorem, dass \(\abs{\exp(x_n) - 1}\) auch gegen \(0\) konvergieren muss. Somit gilt \(\limto{x}{0}\exp(x) = \exp(0) = 1\) und \(\exp(x)\) ist in \(x = 0\) stetig.

Wir dürfen also den Limes in die Funktion ziehen für Grenzwerte gegen \(0\). Dies nutzen wir nun, um die Stetigkeit in einem beliebigen Punkt \(a\) zu zeigen. Sei dazu \((y_n)\) eine beliebige Folge mit Grenzwert \(a\), dann ist \(x_n = y_n - a\) eine Nullfolge. Damit ergibt sich:

\[ \begin{align*} \liminf{n} \exp(y_n) &= \liminf{n} \exp(x_n + a) = \liminf{n} \left( \exp(x_n) \cdot \exp(a) \right)\\ &= \exp \left( \liminf{n} x_n \right) \cdot \exp(a) = \exp(0) \exp(a) = \exp(a) \end{align*} \]

Damit ist die Stetigkeit von \(\exp(x)\) für jedes \(a \in \R\) bewiesen.

Bisher müssen wir für einen Stetigkeitsbeweis immer den Umweg über Folgen gehen. Da der Grenzwert für beliebige Folgen gelten muss, kann dies bei komplizierteren Funktionen schnell sehr aufwendig werden. Wir hätten also gerne eine alternative Methode für den Stetigkeitsbeweis. Oft wird Stetigkeit damit erklärt, dass wir den Graphen einer Funktion zeichnen können, ohne den Stift abzusetzen. Allerdings eignet sich diese Anschauung nicht für einen Beweis, da wir zum Beispiel immer nur einen begrenzten Abschnitt einer Funktion zeichnen können und auch nur mit begrenzt hoher Auflösung. Außerdem gibt es Funktionen, bei denen wir zwar den Stift absetzen müssen, die aber trotzdem stetig sind, wie beispielsweise \(f : \R\setminus\set{0} \to \R\) mit \(f(x) = x^{-1}\).

skript-page-code-68b9b735.gnuplot.svg

Der Graph erfordert definitiv das Absetzen des Stiftes, allerdings liegt die “Absetzstelle” nicht im Definitionsbereich, da \(x = 0\) ausgeschlossen werden muss. Für alle anderen Punkte \(x \neq 0\) lässt sich die Stetigkeit leicht zeigen (zur Übung). Somit wäre diese Funktion stetig, obwohl der Graph nicht danach aussieht. Wir benötigen also ein handlicheres Kriterium für die Stetigkeit, das sich besser für einen Beweis eignet. Das nun folgende \(\eps\)-\(\delta\)-Kriterium sieht auf den ersten Blick zwar komplizierter aus, ist aber sehr hilfreich für diesen Zweck. Es beschreibt die “Gutmütigkeit” der Funktion in etwa wie folgt: wenn sich \(x\) und \(a\) immer näher kommen, dann sollen sich \(f(x)\) und \(f(a)\) auch immer näher kommen.

Sei \(A \subseteq \R\) und \(f: A \to \R\) eine Funktion. \(f\) ist genau dann im Punkt \(a \in A\) stetig, wenn gilt: \[ \forall \eps > 0 \; \exists \delta > 0 \; \forall x \in A \gilt \abs{x-a} < \delta \;\folgt\; \abs{f(x)-f(a)} < \eps \]

In Worten: Zu jedem positiven \(\eps\) finden wir ein positives \(\delta\), sodass für alle \(x\)-Werte, deren Abstand zur untersuchten Stelle \(a\) kleiner als \(\delta\) ist, folgt, dass der Abstand ihres Funktionswerts zu \(f(a)\) kleiner als \(\eps\) ist.

Beweis

Der Beweis wird in zwei Schritten geführt, indem wir in jedem Schritt eine Richtung der Äquivalenzbeziehung beweisen:

  1. \(\eps, \delta\) existieren \(\Rightarrow\) Stetigkeit:

    Es gebe zu jedem \(\eps > 0\) ein \(\delta > 0\), sodass \(\abs{f(x)-f(a)} < \eps\) für alle \(x \in A\) mit \(\abs{x-a} < \delta\). Es ist zu zeigen, dass für jede Folge \((x_n)_{n \in \N}\) mit \(x_n \in A\) und \(\liminf{n} x_n = a\) gilt, dass \(\liminf{n} f(x_n) = f(a)\).

    Sei \(\eps > 0\) vorgegeben und \(\delta > 0\) gemäß der Voraussetzung gewählt. Da \(\liminf{n} x_n = a\) existiert ein \(n_0 \in \N\), sodass \(\abs{x_n - a} < \delta\) für alle \(n \geq n_0\). Nach Voraussetzung ist damit \(\abs{f(x_n) - f(a)} < \eps\) für alle \(n \geq n_0\). Also gilt \(\liminf{n} f(x_n) = f(a)\) und \(f\) ist stetig.

  2. Stetigkeit \(\Rightarrow\) \(\eps, \delta\) existieren:

    Für jede Folge \(x_n \in A\) mit \(\liminf{n} x_n = a\) gelte \(\liminf{n} f(x_n) = f(a)\). Es ist zu zeigen, dass zu jedem \(\eps > 0\) ein \(\delta > 0\) existiert, sodass \(\abs{f(x) - f(a)} < \eps\) für alle \(x \in A\) mit \(\abs{x -a} < \delta\). Wir führen einen Widerspruchsbeweis:

    Angenommen es existiert ein \(\eps > 0\), sodass für jedes \(\delta > 0\) mindestens ein \(x \in A\) existiert mit \[\abs{x-a} < \delta \quad\text{und}\quad \abs{f(x)-f(a)} \geq \eps . \tag{*}\]

    Wenn die obige Aussage für jedes \(\delta > 0\) gilt, dann gilt sie auch für \(\delta = 1/n ,\; n \in \N\). Es gibt also für beliebige \(n \in \N\) ein \(x_n \in A\) mit \(\abs{x_n-a} < \frac{1}{n}\). Diese \(x_n\) bilden eine Folge \((x_n)\), die gegen \(a\) konvergiert, denn es gibt für beliebige \(\eps' > 0\) ein \(n_0' = \ceil{1/\eps}\), sodass für alle \(n \geq n_0'\) gilt \(\abs{x_n - a} < \frac{1}{n} \leq \eps'.\)

    Wegen der Stetigkeit von \(f\) muss für diese Folge \((x_n)\) gelten \[\liminf{n} f(x_n) = f(a),\] oder anders gesagt: für jedes \(\eps'' > 0\) muss es ein \(n_0''\) geben, sodass für alle \(n \geq n_0\) gilt: \[\abs{f(x_n) - f(a)} < \eps''.\] Dies steht im Widerspruch zu (*) (↯).

Betrachten wir zunächst eine graphische Interpretation des \(\eps\)-\(\delta\)-Kriteriums:

../images/eps-delta.svg

Links ist der Fall einer stetigen Funktion gezeigt. Für das grüne Funktionswertintervall \((f(a) - \eps, f(a) + \eps)\) finden wir stets ein gelbes Definitionsbereichsintervall \((a - \delta, a + \delta)\), sodass alle Funktionswerte des gelben Bereichs auch im grünen liegen. Wir könnten links das \(\eps\), also den grünen Bereich, beliebig klein machen und würden trotzdem immer einen \(\delta\) (gelben) Bereich finden, für den dies gilt. Bei der unstetigen Funktion rechts gibt es eine \(1\) Längeneinheiten große Lücke bei \(x = 2\). Wenn wir also hier z.B. \(\eps = 0.5\) wählen, dann können wir den gelben Bereich um die unstetige Stelle noch so groß oder klein machen, es würde immer Funktionswerte im gelben Bereich geben, die nicht im grünen Bereich liegen.

Wir können jetzt mit dem Folgenkriterium (auto bzw. auto) oder dem \(\eps\)-\(\delta\)-Kriterium (auto) die Stetigkeit von Funktionen nachweisen. Die folgenden zwei Sätze vereinfachen den Nachweis der Stetigkeit komplizierter Funktionen, indem sie diese auf Kombinationen einfacherer Funktionen zurückführen.

Seien \(f, g: A \to \R\) Funktionen, die in \(a \in A\) stetig sind, und sei \(c \in \R\). Dann sind auch die Funktionen

  1. \(f+g: A \to \R\)
  2. \(c \cdot f: A \to \R\)
  3. \(f \cdot g: A \to \R\)

im Punkt \(a\) stetig. Ist \(g(a) \neq 0\), so ist auch die Funktion

  1. \(\frac{f}{g}: A' \to \R\)

in \(a\) stetig. Dabei ist \(A' = \set{ x \in A \mid g(x) \neq 0 }\).

Beweis

Sei \((x_n)_{n \in \N}\) eine Folge in \(A\) (bzw. \(A'\)) und \(\liminf{n} x_n = a\). Es ist zu zeigen: \[\begin{aligned} \liminf{n} (f+g)(x_n) &= (f+g)(a)\\ \liminf{n}(c \cdot f) (x_n) &= (c \cdot f) (a)\\ \liminf{n} (f \cdot g)(x_n) &=(f \cdot g)(a)\\ \liminf{n} \left( \frac{f}{g}\right) (x_n) &= \left(\frac{f}{g}\right)(a)\end{aligned}\] Nach Voraussetzung ist \(\liminf{n}f(x_n) = f(a)\) und \(\liminf{n} g (x_n) = g(a)\). Die Behauptung folgt aus den Rechenregeln für Folgen (siehe auto).

Seien \(f: A \to \R\) und \(g: B \to \R\) Funktionen mit \(f(A) \subseteq B\). Die Funktion \(f\) sei in \(a \in A\) und \(g\) in \(b = f(a) \in B\) stetig.

Dann ist die Funktion \(g \circ f: A \to \R\) in \(a\) stetig.

Beweis

Sei \((x_n)_{n \in \N}\) eine Folge in \(A\) mit \(\lim\limits_{n \to \infty} x_n = a\).

Da \(f\) stetig in \(a\) ist, gilt \(\lim\limits_{n \to \infty} f(x_n) = f(a)\). Nach Voraussetzung ist \(y_n=f(x_n) \in B\) und \(\liminf{n} y_n =b\). Da \(g\) in \(b\) stetig ist, gilt auch \(\liminf{n} g(y_n) = g(b)\). Deshalb folgt \[\liminf{n} (g \circ f) (x_n) = \lim\limits_{n \to \infty} g (f(x_n)) = \liminf{n} g(y_n) = g(b) = g(f(a)) = (g \circ f) (a).\]

Seien \(f : \R \to \R ,\; f(x) = \exp(x)\) und \(g : \R\to\R ,\; g(x) = x^2\). \(f\) und \(g\) sind stetig in \(\R\), daher ist auch \(h(x) = \exp(x^2)\) stetig in \(\R\).

Nachdem wir nun einige Techniken kennen, um die Stetigkeit einer Funktion nachzuweisen, wollen wir nun nützliche Folgerungen aus der Stetigkeit ableiten. Als Anschauung können Sie immer das “Zeichnen des Graphen ohne den Stift abzusetzen” im Hinterkopf behalten.

Sei \(f: \left[ a, b \right] \to \R\) eine stetige Funktion mit \(f(a) < 0 < f(b)\) oder \(f(a) > 0 > f(b)\). Dann existiert ein \(c \in (a,b)\) mit \(f(c) = 0\).

Allgemeiner gilt für alle \(y \in \R\): Wenn \(f(a) < y < f(b)\) oder \(f(a) > y > f(b)\), dann existiert ein \(d \in (a,b)\) mit \(f(d) = y\).

Beweis

Erster Teil:
Der Beweis erfolgt über eine Intervallschachtelung (auto). Wir betrachten den Fall \(f(a) < 0 < f(b)\). Der andere Fall \(f(a) > 0 > f(b)\) ist analog zu beweisen.

Wir definieren zunächst eine Intervallschachtelung mit den Eigenschaften

  1. \([a_{n+1}, b_{n+1}] \subset [a_n, b_n] ,\)
  2. \(\abs{[a_{n+1}, b_{n+1}]} = \left(b_{n+1} - a_{n+1}\right) = \frac{1}{2} \left(b_n-a_n \right) = \frac{1}{2}\abs{[a_n, b_n]} ,\)
  3. \(f(a_n) < 0 < f(b_n) .\)

Dass so eine Schachtelung existiert, beweisen wir durch vollständige Induktion:

  • Induktionsanfang: \([a_1, b_1] = [a, b]\).

  • Induktionsvoraussetzung: Für \(n \in \N\) existiert ein Intervall \(I_n = [a_n, b_n]\) mit den oben genannten Eigenschaften.

  • Induktionsschritt: Wir bestimmen den Mittelpunkt \(m = \frac{a_n + b_n}{2}\) des Intervalls \([a_n, b_n]\), welches nach Induktionsvoraussetzung existiert, und konstruieren daraus das nächste Intervall: \[ [ a_{n+1}, b_{n+1} ] = \begin{cases} [a_n, m] & \text{falls}\;\; f(m) \geq 0\\ [m, b_n] & \text{falls}\;\; f(m) < 0 \end{cases} \] Es ist leicht nachzuprüfen, dass die obigen Bedingungen 1.–3. für die Intervalle gelten. Nach auto existiert ein eindeutiges \(c\in\R\) mit \(c \in [a_n, b_n] \; \forall n\in\N\).

    Da \(f\) stetig ist, gilt außerdem: \[\limto{x}{c} f(x) = \liminf{n} f(a_n) = \liminf{n} f(b_n) = f(c)\] und gleichzeitig auch (per Konstruktion) \[f(a_n) < 0 < f(b_n).\] Dies ist nur für den Grenzwert \(0\) möglich. Es gilt also \(f(c) = 0\).

Zweiter Teil:
Man könnte die Intervallschachtelung aus dem ersten Teil des Beweises analog mit \(y\) statt mit \(0\) als Vergleichspunkt konstruieren. Wir führen hier aber einen etwas anderen Beweis, der auf den ersten Teil des Satzes aufbaut. Wir betrachten den Fall \(f(a) < y < f(b)\), der andere Fall lässt sich analog beweisen.

Wir definieren eine Funktion \(g: [a,b] \to \R\) mit \(g(x) = f(x) - y\). Wegen der Stetigkeit von \(f\) und von konstanten Funktionen ist nach auto auch \(g\) stetig. Es gilt \(g(a) < 0 < g(b)\), sodass nach dem ersten Teil des Satzes ein \(d \in [a,b]\) mit \(g(d) = 0\) existiert, für das nach Konstruktion dann auch \(f(d)=y\) gilt.

Vorsicht: Der Satz gilt nicht für \(f: [a, b]\subset \Q\to \R\), da in \(\Q\) die Intervallschachtelung, welche wir zum Beweis benutzt haben, nicht konvergieren muss. Zum Beispiel ist \(f(x) = x^2-2\) stetig, aber die Nullstelle \(\sqrt{2}\) liegt nicht in \(\Q\).

Graphisch kann man sich den Zwischenwertsatz mit dem im folgenden Bild veranschaulichen: Es ist nicht möglich, eine durchgängige Linie von \(f(a)\) zu \(f(b)\) zu zeichnen (die stetige Funktion), welche die \(x\)-Achse nicht mindestens einmal schneidet.

../images/ZWS.svg

Die Erkenntnis des Zwischenwertsatzes wird in der Praxis genutzt um Nullstellen zu bestimmen. Kennt man nämlich zwei Funktionswerte \(f(a)\) und \(f(b)\) mit unterschiedlichem Vorzeichen, dann wissen wir (für stetige Funktionen) dass es zwischen \(a\) und \(b\) eine Nullstelle \(x_0\) geben muss. Eine einfache Möglichkeit, sich \(x_0\) zu nähern, ist das sogenannte Bisektionsverfahren. Hierbei wird genau so verfahren, wie bereits im Beweis des Zwischenwertsatzes: Wir bestimmen zunächst den Mittelpunkt \(c = \frac{1}{2}(a + b)\). Es ist entweder \(f(c) = 0\), dann ist \(x_0 = c\), oder \(f(c) \neq 0\), dann ersetzt \(c\) eine der beiden Grenzen \(a\) oder \(b\) (ja nach Vorzeichen von \(f(c)\)). Die Schritte können nun für dieses kleinere Intervall wiederholt werden. Somit grenzt man die Nullstelle in jedem Iterationsschritt weiter ein.

Die Bisektionsmethode kann verbessert werden durch das sogenannte Regula-Falsi-Verfahren. Hierbei teilt man das Intervall \([a,b]\) nicht am Mittelpunkt sondern bestimmt die Nullstelle der Verbindungslinie durch die Punkte \((a,f(a))\) und \((b, f(b))\) (Sekante). Diese ergibt sich über:

\[c = b - f(b) \frac{b-a}{f(b) - f(a)}.\]

Die restlichen Schritte erfolgen analog zur Bisektion. Da es bei beiden Verfahren unwahrscheinlich ist, dass genau der Punkt \(c\) mit \(f(c)=0\) gefunden wird, muss das Verfahren irgendwann abgebrochen werden. Dazu muss eine Abbruchbedingung definiert werden. Übliche Bedingungen sind \(|f(c)| < \eps\) oder \(b-a < \eps\) für ein kleines \(\eps > 0\).

Die Verfahren konvergieren für stetige Funktionen immer gegen eine Nullstelle, die Konvergenz kann aber relativ langsam sein, d.h. es werden viele Schritte benötigt. Das Regula-Falsi-Verfahren können Sie in der nachfolgenden Demo testen.

Demo: Regula-Falsi

Die Demo zeigt eine Funktion und zwei Startwerte mit \(f(a) < 0 < f(b)\). Über den Slider können Sich sie nacheinander die erste, zweite und dritte Iteration des Regula-Falsi-Verfahrens einblenden. Sie können außerdem die Startpunkte verschieben und den Einfluss auf die Iterationsergebnisse beobachten.

Sei \(I \subseteq \R\) ein Intervall und \(f: I \to \R\) eine stetige Funktion. Dann ist auch \(J = f(I) \subseteq \R\) ein Intervall.

Beweis

Wir setzten \(q = \sup(f(I)) \in \R \cup \set{\infty}\) und \(p = \inf(f(I)) \in \R \cup \set{-\infty}\). Zunächst zeigen wir \((p, q) \subseteq f(I)\).

Sei dazu \(y \in \R\) beliebig gewählt, sodass \(p < y < q\). Nach Definition von \(p\) und \(q\) gibt es dann \(a, b \in I\) mit \(f(a) < y < f(b)\). Nach dem Zwischenwertsatz existiert \(x \in I\) mit \(f(x)=y\). Also ist \(y \in f(I)\). Damit ist \((p,q) \subseteq f(I)\) bewiesen und \(f(I)\) muss eines der folgenden vier Intervalle sein: \([p,q], (p, q], [p, q),(p, q)\).

Sei \(I \subseteq \R\) ein Intervall und \(f: I \to \R\) stetig und streng monoton (wachsend oder fallend). Sei \(J = f(I)\), dann bildet \(f\) das Intervall \(I\) bijektiv auf \(J\) ab und die Umkehrfunktion \(f^{-1} : J \to \R\) ist stetig.

Beweis

Die Monotonie und Existenz von \(f^{-1}\) wurde bereits in auto gezeigt. \(f\) ist als streng monotone Funktion injektiv. Da für den Definitionsbereich von \(f^{-1}\) gilt \(J = f(I)\), ist die Abbildung auch surjektiv und damit bijektiv. \(J\) ist nach auto ebenfalls ein Intervall. Damit bleibt nur noch die Stetigkeit von \(f^{-1}\) zu zeigen.

Zum Beweis der Stetigkeit benutzen wir das \(\eps\)-\(\delta\)-Kriterium (auto) und nehmen an, dass \(f\) streng monoton wachsend ist. Für ein \(b \in J\) existiert ein \(a = f^{-1}(b) \in I\), d.h. \(b = f(a)\). Ist \(b \in J\) kein Randpunkt von \(J\), dann existiert \(\eps' > 0\), sodass \([b- \eps', b + \eps'] \subseteq J\).

Wir zeigen nun die Stetigkeit von \(f^{-1}\) in \(b\). Da \(f\) bijektiv und stetig ist, ist auch \(a\) kein Randpunkt von \(I\). Damit können wir ein \(\eps > 0\) wählen, sodass \([a-\eps, a+\eps] \subseteq I\) und für die Elemente \(x\) des Intervalls gilt \(|x - a| = |f^{-1}(f(x)) - f^{-1}(f(a))| < \eps\).

Sei \(b_1 = f(a-\eps)\) und \(b_2 = f(a+\eps)\). Wegen der strengen Monotonie von \(f\) gilt \(b_1 < b < b_2\). Ferner bildet \(f\) das Intervall \([a-\eps,a+\eps]\) bijektiv auf das Intervall \([b_1,b_2]\) ab.
Wir wählen \(\delta = \min (b - b_1, b_2-b)\). Dann gilt \(f^{-1}((b- \delta, b +\delta)) \subseteq (a -\eps, a + \eps)\).
Für \(y \in (b- \delta, b +\delta)\) gilt offensichtlich \(|y - b| < \delta\) und gleichzeitig für die Funktionswerte \(|f^{-1}(y) - f^{-1}(b)| < \eps\). Damit ist das \(\eps\)-\(\delta\)-Kriterium erfüllt und \(f^{-1}\) ist stetig nach auto.

Damit haben wir die Stetigkeit von \(f^{-1}\) in allen Punkten gezeigt, die keine Randpunkte von \(J\) sind. Für Randpunkte \(b \in J\) erfolgt der Beweis durch Betrachtung von \([a, a- \eps]\) bzw. \([a, a+ \eps]\) und ein ansonsten analoges Vorgehen. Für monoton fallende Funktionen erfolgt der Beweis ebenfalls analog.

\(f:\R_{>0} \to \R_{>0}\), \(f(x) = x^2\) ist stetig (auto) und streng monoton wachsend (auto). Damit ist die Umkehrfunktion \(f^{-1}(x) = \sqrt{x}\) ebenfalls stetig auf \(f(\R_{>0}) = \R_{>0}\).

Der folgende Satz betrachtet stetige Funktionen auf kompakten Intervallen (zur Erinnerung: kompakt bedeutet abgeschlossen und beschränkt, siehe auto).

Auf einem kompakten Intervall \([a,b]\) ist jede stetige Funktion \(f: [a,b] \to \R\) beschränkt und nimmt ihr Minimum und Maximum an.

D.h. es existieren ein \(c \in [a,b]\), sodass \(f(c) = \sup\set{ f(x) \mid x \in [a, b] }\), und ein \(d \in [a,b]\), sodass \(f(d) = \inf\set{ f(x) \mid x \in [a,b] }\).

Beweis

Wir führen den Beweis für das Maximum: Sei \(y = \sup \lbrace f(x) \mid x \in [a, b] \rbrace \in \R\cup \lbrace \infty \rbrace\). Dann existiert eine Folge \((x_n)\) mit \(x_n \in [a, b]\) für alle \(n \in \N\), sodass \(\liminf{n} f(x_n) = y\), da die Funktion \(f\) stetig ist. Da \((x_n)\) beschränkt ist (das Intervall aus dem die Folge gewählt wird ist beschränkt), besitzt sie nach den Satz von Bolzano-Weierstraß (auto) eine konvergente Teilfolge \((x_{n_k})_{k \in \N}\) mit \(\liminf{k} x_{n_k} = c \in [a, b]\).

Aus der Stetigkeit folgt nun \(f(c) = \liminf{k} f(x_{n_k}) = y\) und damit insbesondere auch \(y = f(c) \in \R\). Damit ist \(f\) nach oben beschränkt und nimmt in \(c\) das Maximum an.

Der Beweis für das Minimum ist analog zu führen.

Der vorherige Satz gilt nicht für offene oder halboffene Intervalle. So ist zum Beispiel die Funktion \(f(x) = \frac{1}{x}\) im Intervall \((0,1)\) stetig, aber unbeschränkt. Die Funktion \(f(x) = x\) ist im Intervall \((0,1)\) stetig und beschränkt, nimmt aber weder das Supremum \(1\) noch das Infimum \(0\) an.

Die Stetigkeit und ihre Folgerungen wirken an dieser Stelle recht trivial, da wir uns die Funktionen noch gut als Graphen vorstellen können. Wir können die Regeln aber später auch teilweise auf mehrdimensionale oder komplexwertige Funktionen erweitern, die in sehr vielen praktischen Anwendungen eine Rolle spielen. Für viele dieser Funktionen versagt die Vorstellungskraft. Mit den hier eingeführten Regeln und Folgerungen können wir für diese Funktionen aber zum Beispiel trotzdem zeigen, dass auf einem kompakten Definitionsgebiet irgendwo ein Minimum und Maximum existieren muss. Diese Extrema sind in der Praxis von großem Interesse, da sie eine optimale Lösung des von der Funktion beschriebenen Problems darstellen.

Zuletzt betrachten wir noch die sogenannte gleichmäßige Stetigkeit, bei der eine stärkere Bedingung an die Funktion gestellt wird, als bei der herkömmlichen Stetigkeit. Ähnlich wie beim Satz von Bolzano-Weierstraß wird an dieser Stelle noch nicht gleich klar, wofür wir diese zweite Art der Stetigkeit benötigen. Aber wir werden im Kapitel über Integrale einen sehr wichtigen Satz beweisen, der die gleichmäßige Stetigkeit einer Funktion erfordert.

Eine Funktion \(f: A \to \R\) heißt gleichmäßig stetig, wenn gilt: \[ \forall \eps > 0 \; \exists \delta > 0 \; \forall x, y \in A \gilt \abs{x - y} < \delta \folgt \abs{f(x) - f(y)} < \eps . \]

Machen Sie sich den Unterschied zu auto bewusst. Dort haben wir gefordert, dass für alle \(a\) im Definitionsbereich gilt \[ \forall \eps > 0 \; \exists \delta > 0 \; \forall x \in A \gilt \abs{x - a} < \delta \folgt \abs{f(x) - f(a)} < \eps. \]

Hierbei konnte das \(\delta\) sowohl von \(a\), als auch von \(\eps\) abhängen. Bei der gleichmäßigen Stetigkeit übernimmt das \(y\) die Rolle von \(a\), steht aber nun nach dem \(\delta\) in der Bedingung. Daher darf für die gleichmäßige Stetigkeit das \(\delta\) nur noch von \(\eps\) abhängen. Man kann sich die gleichmäßige Stetigkeit also damit vorstellen, dass eine Grenze für die Schwankung von Funktionswerten für jede Intervalllänge von \(x\)-Werten existiert. Die Funktion kann also auf einer vorgegebenen Intervalllänge nicht beliebig stark ansteigen.

Die Funktion \(f:\R_{>0} \to \R_{>0}, f(x) = \sqrt{x}\) ist gleichmäßig stetig. Vor dem Beweis machen wir uns dies erst anschaulich klar: die Wurzelfunktion steigt für kleine \(x\) stärksten an und flacht für größere Argumente immer weiter ab, damit können wir bereits vermuten, dass die Funktion gleichmäßig stetig ist. Für den formalen Beweis geht man ähnlich vor wie in auto:

Ein kleiner Hilfsbeweis vorweg:
Es gilt \((a + b)^2 = a^2 + 2ab + b^2 \geq a^2 + b^2\), also nach auto auch \(a + b \geq \sqrt{a^2 + b^2}\). Für \(a = \sqrt{x}\) und \(b = \sqrt{y}\) und \(x,y > 0\) folgt weiter \[\sqrt{x} + \sqrt{y} \geq \sqrt{x + y} = \sqrt{x - (-y)} \geq \sqrt{||x| - |-y||} = \sqrt{|x - y|},\] wobei der vorletzte Schritt auto(e) ausnutzt. Es gilt also insgesamt \[\sqrt{x} + \sqrt{y} \geq \sqrt{|x - y|}\ (*).\]

Nun zum Beweis der gleichmäßigen Stetigkeit:
Sei \(\eps > 0\) und \(\delta = \eps^2> 0\). Dann folgt für alle \(x,y > 0\) aus \(|x - y| < \delta\): \[\begin{align*}|f(x) - f(y)| &= |\sqrt{x} - \sqrt{y}| = \left|(\sqrt{x} - \sqrt{y})\frac{\sqrt{x} + \sqrt{y}}{\sqrt{x} + \sqrt{y}}\right|\\ &= \frac{|x - y|}{\sqrt{x} + \sqrt{y}}\\ &\stackrel{(*)}{\leq} \frac{|x - y|}{\sqrt{|x - y|}} = \sqrt{|x - y|} < \sqrt{\delta} = \eps. \end{align*}\]

Damit ist die gleichmäßige Stetigkeit von \(f(x) = \sqrt{x}\) bewiesen.

Den nun folgenden Satz werden wir, wie bereits erwähnt, später noch benötigen.

Ist eine Funktion \(f: A \to \R\) auf einem kompakten Intervall \([a,b] \subseteq A\) stetig, dann ist sie dort auch gleichmäßig stetig.

Beweis

Wir führen einen Beweis durch Widerspruch:
Angenommen \(f\) sei nicht gleichmäßig stetig. Die Negation der Bedingung der gleichmäßigen Stetigkeit sieht wie folgt aus: \[ \exists \eps > 0 \; \forall \delta > 0 \; \exists x, y \in A \gilt \abs{x-y} < \delta \and \abs{f(x)-f(y)} \geq \eps. \]

Da dies für alle \(\delta > 0\) gilt, können wir \(\delta = \frac{1}{n}\) für alle \(n \in \N\) wählen und die entsprechenden \(x,y\) mit obiger Eigenschaft \(x_n\) und \(y_n\) nennen. Dann gibt es ein \(\eps > 0\), sodass für alle \(n \in \N\) zwei Punkte \(x_n, y_n \in [a,b]\) existieren mit \(\abs{x_n-y_n} < \frac{1}{n}\) und \(\abs{f(x_n)-f(y_n)} \geq \eps\).

Die Folge \((x_n)\) ist beschränkt (da \(x_n \in [a,b]\)) und besitzt nach dem Satz von Bolzano-Weierstraß (auto) eine konvergente Teilfolge \((x_{n_k})\) mit \(\liminf{k} x_{n_k} = c \in [a,b]\). Aus \(\abs{x_n-y_n} < \frac{1}{n}\) folgt \(\liminf{k} \abs{x_{n_k}-y_{n_k}} = 0\) und damit \(\liminf{k} y_{n_k} = c\).

Da \(f\) stetig ist, gilt auch \[\liminf{k} \left( f(x_{n_k}) - f(y_{n_k}) \right) = f(c) - f(c) = 0,\] was im Widerspruch zur Annahme \(\abs{f(x_n)-f(y_n)} \geq \eps\) für alle \(n \in \N\) steht (↯), sodass \(f\) gleichmäßig stetig auf \([a,b]\) sein muss.

Elementare Funktionen

Wir wollen in diesem Abschnitt einmal die wichtigsten Funkionenklassen gebündelt vorstellen. Diese werden auch häufig als elementare Funktionen bezeichnet, auch wenn dies keine offizielle mathematische Definition ist. Im letzten Abschnitt haben wir gesehen, dass Kombinationen stetiger Funktionen wieder stetig sind. Daher ist es hilfreich, ein gutes Repertoire an solchen stetigen Basisfunktionen zu kennen, aus denen man sich viele (aber nicht alle) in der Praxis relevanten Funktionen zusammenbauen kann, die dann wiederum stetig sind.

Polynome und rationale Funktionen

In diesem Abschnitt betrachten wir zwei wichtige Klassen von Funktionen, die durch ihre einfache Analysierbarkeit und die Möglichkeiten, mit ihnen andere, komplexere Funktionen zu approximieren, in der Analysis eine große Bedeutung haben.

Seien \(n \in \N_0\) und \(a_0, a_1, \dots , a_n \in \R\). Wir nennen \(p: \R \to \R\) mit \[p(x) = a_n x^n + \dots + a_2 x^2 + a_1 x + a_0\] eine Polynomfunktion oder einfach Polynom.

Das größte \(n\in\N_0\) mit \(a_n \neq 0\) nennen wir Grad des Polynoms.

Wir können Polynome auch kombinieren. Wenn \(p(x) = \sum\limits_{i=0}^n a_i x^i\) und \(q(x) = \sum\limits_{i=0}^m b_i x^i\) zwei Polynome sind, und \(c \in \R\) ein Skalar, dann ergeben folgende Operationen wieder ein Polynom, wie man leicht nachrechnen kann: \[ \begin{eqnarray*} (p+q)(x) &=& \sum_{i=0}^{\max\{n,m\}} \left(a_i+b_i\right) x^i ,\\ (c \cdot p)(x) &=& \sum_{i=0}^{n} \left(c \cdot a_i \right) x^i ,\\ (p \cdot q)(x) &=& \sum_{i=0}^{n+m} c_i x^i \quad\text{mit}\quad c_k = \sum_{j=0}^k a_j b_{k-j} . \end{eqnarray*} \]

Die Division von zwei Polynomen ist allerdings kein Polynom mehr, sondern eine sogenannte rationale Funktion:

Seien \(p,q: \R \to \R\) Polynome und \(A=\set{x \in \R \mid q(x) \neq 0}.\) Dann ist \(r: A \to \R\) mit \[r(x) = \left(\frac{p}{q}\right)(x) = \frac{p(x)}{q(x)}\] eine rationale Funktion.

Mit der Anwendung von Satz auto ist jedes Polynom und auch jede rationale Funktion stetig. Wichtig ist vielleicht noch zu erwähnen, dass wir auto nur endlich oft anwenden dürfen. Unendliche Summen von Potenzen (also Potenzreihen) sind nicht automatisch stetig auch wenn ihre Summanden und Teilsummen jeweils stetig sind. Wenn wir in den beiden letzten Definitionen \(x \in \C\) und \(a_n \in \C\) wählen, erhalten wir komplexe Polynome und komplexe rationale Funktionen.

Ein Anwendungsgebiet von Polynomen ist die Approximation von Funktionen. Ziel ist es, mithilfe eines Polynoms eines vorgegebenen Grades eine Funktion möglichst gut anzugleichen. Dazu werden oft Stützstellen verwendet. Es gibt eine Menge von Punkten \((x_i,y_i)\), die von der zu approximierenden Funktion angenommen werden oder aus einer Messung stammen und nun durch eine Funktion beschrieben werden sollen. Es soll nun ein Polynom \(p(x)\) gefunden werden, sodass \(p(x_i)=y_i\) für alle vorgegebenen Wertepaare \((x_i,y_i)\).

Wir betrachten im Folgenden einen einfachen Algorithmus, der zu \(n+1\) Stützstellen \((x_i,y_i)\) \((0 \le i \le n)\) ein Polynom \(p(x)\) vom Grad \(n\) erzeugt, sodass \(p(x_i) = y_i\). Das Polynom wird schrittweise generiert, indem das folgende Vorgehen gewählt wird. Wir nehmen dazu an, dass \(x_i \neq x_j\) für alle \(i \neq j\) gilt, mit \(i,j \in \set{0, \ldots, n}\): \[ \begin{eqnarray*} p_0(x) &=& y_0 \\ p_{k+1}(x) &=& p_k(x) + \left(y_{k+1} - p_k(x_{k+1})\right) \prod_{j=0}^k \frac{x-x_j}{x_{k+1}-x_j} \quad\text{für}\; 0 \le k < N . \end{eqnarray*} \] \(p_n(x)\) ist dann die gesuchte Polynomfunktion vom Grad \(n\) und es gilt \(p_n(x_i) = y_i\) für alle \(i \in \set{0,\ldots,n}\). Man kann sogar zeigen, dass \(p_n(x)\) eindeutig ist, d.h., es gibt keine Polynomfunktion vom gleichen oder niedrigeren Grad, die alle Punkte exakt rekonstruiert.

Wir betrachten als einfaches Beispiel die Punktemenge \(\set{(0,1),(2,3),(3,0)}\), die zur Konstruktion der folgenden Polynomfunktion führt: \[ \begin{eqnarray*} p_0(x) &=& 1 \\ p_1(x) &=& p_0(x) + \left(y_1 - p_0(x_1)\right)\frac{x - x_0}{x_1 - x_0} \\ &=& 1 + (3 - 1)\frac{x- 0}{2 - 0} \; = \; x + 1 \\ p_2(x) &=& p_1(x) + \left(y_2 - p_1(x_2)\right) \frac{x-x_0}{x_2-x_0}\frac{x-x_1}{x_2-x_1} \\ &=& 1 + x + (0-4)\frac{x-0}{3-0}\frac{x-2}{3-2} \\ &=& - \frac{4}{3}x^2 + \frac{11}{3}x+1 . \end{eqnarray*} \]

Die Beispielfunktion gibt die vorgegebenen Punkte exakt wieder und hat einen glatten Verlauf. Es sollte allerdings erwähnt werden, dass dies nicht für alle Funktionen der Fall ist und in vielen Fällen die Hinzunahme neuer Punkte zu einer Polynomfunktion führt, die sehr abrupte Änderungen aufweist und die vorgegeben Funktion nur unzureichend approximiert. Es werden deshalb in der Regel komplexere Verfahren zur Funktionsapproximation mit Hilfe von Polynomfunktionen verwendet, auf die wir nicht weiter eingehen.

Demo: Polynomrekonstruktion durch Stützstellen

Die folgende Demo zeigt ein Polynom, dass sich durch die 5 farbigen Stützstellen ergibt. Sie können diese beliebig verschieben und beobachten, wie sich das Polynom verändert.

Aus der Schule wissen Sie vermutlich, dass jedes Polynom vom Grad \(n\) maximal \(n\) Nullstellen besitzen kann. Aber warum ist das eigentlich so? Um dies zu zeigen, müssen wir erst eine Art Division mit Rest von Polynomen betrachten, die sogenannte Polynomdivision. Wenn wir ein Polynom \(p(x)\) vom Grad \(n\) durch ein Polynom \(q(x)\) vom Grad \(m\) mit \(m \leq n\) teilen, ergibt sich ein neues Polynom \(s(x)\) vom Grad \(n-m\) und ein Restpolynom \(r(x)\), dessen Grad kleiner ist als \(m\). Vergleichen Sie dies mit der Division mit Rest auto: Auch hier ist das Restglied stets kleiner als die Zahl, durch die wir teilen, und das Ergebnis der Division ist kleiner als die Ausgangszahl. Da der Beweis recht technisch ist, betrachten wir zuerst ein Beispiel für die Polynomdivision:

Wir berechnen \((3x^4 +x^3 -2x):(x^2+1)\) nach folgendem Schema: \[\begin{array}{ll} &\phantom{-}(3x^4 +x^3 \phantom{+3x^2} -2x \phantom{+0x}):(x^2+1) = 3x^2 + x - 3\\ &\underline{-(3x^4 \phantom{+x^3} +3x^2)}\\ &\phantom{-(3x^4 +} x^3 -3x^2 -2x\\ &\phantom{3x^4 +} \underline{-( x^3 \phantom{-3x^2\ \ } +\phantom{1}x)} \\ &\phantom{3x^4\ -( x^3} -3x^2 -3x\\ & \phantom{3x^4\ + x^3} \underline{-(-3x^2 \phantom{+0x} \ -3)}\\ & \phantom{3x^4\ + x^3 -(3x^2} -3x\ +3 \end{array}\]

Die Division wird abgebrochen, da \(\func{Grad}(-3x+3) < \func{Grad}(x^2 + 1)\). Damit ist \(s(x) = 3x^2 + x -3\) und \(r(x)= -3x+3\), also

\[3x^4 +x^3 -2x = \left( x^2+1 \right) \left( 3x^2 + x - 3 \right) -3x + 3 .\]

Wenn das Verfahren der Polynomdivision an Ihrer Schule nicht eingeführt wurde, oder es schon in Vergessenheit geraten ist, und Sie keine Angst vor etwas Fremdscham haben, dann können Sie sich ein berühmtes Youtube-Video dazu ansehen, welches das Verfahren musikalisch ins Gehirn einbrennt.

Nun also noch der eigentliche Satz und Beweis:

Seien \(p(x)\) und \(q(x)\) Polynome vom Grad \(n\) und \(m\) mit \(m \le n\). Dann gibt es Polynome \(s(x)\) und \(r(x)\), so dass \[p(x) = s(x)q(x) + r(x).\] Es gilt \[ \func{Grad}(s) = \func{Grad}(p) - \func{Grad}(q) \quad\text{und}\quad \func{Grad}(r) < \func{Grad}(q) . \]

Beweis

Sei \(p(x) = a_n x^n + \ldots + a_1 x + a_0\) und \(q(x) = b_m x^m + \ldots + b_1 x + b_0\). Subtrahiert man von \(p(x)\) das Polynom \[ \frac{a_n}{b_m} x^{n-m} \cdot q(x) , \] so erhält man ein Polynom \(p_1(x)\) mit \(n_1 = \func{Grad}(p_1) < \func{Grad}(p) = n\).

Falls \(n_1 < m\), dann sei \(r(x) = p_1(x)\) und \(s(x) = \frac{a_n}{b_m} x^{m\cdot n}\) und die obige Darstellung wurde erreicht. Ansonsten wird mit \(p_1(x)\) und \(q(x)\) wie für \(p(x)\) und \(q(x)\) beschrieben fortgefahren. Diese Schritte werden so lange iteriert, bis ein Polynom \(p_i(x)\) mit \(\func{Grad}(p_i) < \func{Grad}(q)\) erzeugt wurde. Ein solches Polynom entsteht, da sich der Grad beim Übergang von \(p_{i+1}(x)\) auf \(p_i(x)\) jeweils um \(1\) reduziert.

Nun muss noch die Eindeutigkeit der Polynome \(s(x)\) und \(r(x)\) gezeigt werden. Sei \(p(x) = s'(x)q(x) + r'(x)\) mit \(s'(x) \neq s(x)\) und \(r'(x) \neq r(x)\) eine weitere Darstellung. Dann folgt \[ s(x)q(x) + r(x) = s'(x)q(x)+r'(x) \quad \Leftrightarrow \quad \left(s'(x)-s(x)\right) q(x) = r(x)-r'(x) \] und damit auch \[ \func{Grad}(s(x)-s'(x))q(x) = \func{Grad}(r(x)-r'(x)) < \func{Grad} q(x). \]

Der Grad eines Produktes zweier Polynome (\(q(x)\) und \(s(x)-s'(x)\)) kann allerdings nicht kleiner sein als der Grad einer der Polynomfaktoren (\(q(x)\)), es sei denn, es gilt \(s(x)-s'(x) = 0\), wonach auch \(r(x)-r'(x) = 0\) gilt. Die Polynome \(r(x)\) und \(s(x)\) sind also eindeutig.

Als nächstes betrachten wir bestimmte Polynome für \(q(x)\), sogenannte Linearfaktoren \(q(x) = x - x_1\) für ein \(x_1 \in \R\). Für diese können wir Folgendes zeigen:

Ein Polynom \(p(x)\) lässt sich genau dann ohne Rest durch \(q(x)=x-x_1\) teilen (\(x_1 \in \R\)), wenn \(x_1\) eine Nullstelle von \(p(x)\) ist.

Beweis

Wir führen den Beweis in zwei Richtungen. Wir hatten im letzten Satz bereits gezeigt, dass der Grad des Restglieds \(r\) einer Polynomdivision immer kleiner ist als des Polynoms \(q\), durch das wir teilen. Der Grad von \(q(x) = x - x_1\) ist \(1\), also ist \(r(x) = c\) eine Konstante \(c \in \R\).

Richtung 1:

Wenn \(r(x) = 0\) ist, dann folgt \(p(x_1) = (x_1 - x_1)s(x_1) + 0 = 0\), somit ist \(x_1\) eine Nullstelle von \(p(x)\).

Richtung 2:

Wenn \(x_1\) eine Nullstelle ist, dann folgt \(p(x_1) = 0 = (x_1 - x_1)s(x_1) + c = c\), somit ist \(r(x) = c = 0\).

Kombinieren wir auto und auto, dann folgt, dass wir \(p(x)\) als \((x-x_1)q(x)\) darstellen können, wenn \(x_1\) eine Nullstelle von \(p(x)\) ist. Außerdem muss dann \(q(x)\) um einen Grad kleiner sein als \(p(x)\). Dies können wir maximal \(n\) (Grad von \(p(x)\)) mal durchführen. Damit hat ein Polynom vom Grad \(n\) höchstens \(n\) Nullstellen.

Für komplexe Polynome lässt sich sogar zeigen, dass diese genau \(n\) Nullstellen haben. Dies beweist man, indem man zeigt, dass jedes komplexe Polynom mindestens eine Nullstelle hat. Der formale Beweis hierfür ist leider ein wenig ausufernd, weswegen wir ihn nur graphisch motivieren, bzw. dafür auf das Vorlesungsvideo von Prof. Weitz verweisen. Anschließend kann man wie im letzten Absatz folgern, dass jede Nullstelle als Linearfaktor abgespalten werden kann, wodurch sich der Grad um Eins verringert. Da auch das übrige Polynom wieder mindestens eine komplexe Nullstelle haben muss, ergibt sich nach \(n\)-maliger Anwendung dieser Argumentation, dass ein komplexes Polynom vom Grad \(n\) genau \(n\) Nullstellen besitzt.

Die reelle Exponentialfunktion

Wir haben im Kapitel zu Potenzreihen bereits die Exponentialreihe eingeführt. Die Exponentialfunktion definieren wir nun über eben diese Reihe:

Wir definieren die Funktion \(\exp : \R \to \R_{>0}\) als \[\exp(x) = \sum_{k=0}^\infty \frac{x^k}{k!}.\]

Wie wir bereits in auto gesehen haben, ist die Exponentialfunktion stetig. Die meisten weiteren Eigenschaften der Exponentialfunktion leiten sich aus den Eigenschaften der Exponentialreihe ab und werden hier nur noch einmal wiederholt:

Für die Exponentialfunktion \(\exp(x)\) gelten folgende Eigenschaften:

  1. \(\forall x,y \in \R \gilt \exp(x+y) = \exp(x) \cdot \exp(y)\)
  2. \(\forall x \in \R \gilt \exp(-x) = \frac{1}{\exp(x)}\)
  3. \(\forall x \in \R \gilt \exp(x) > 0\)
  4. \(\forall n \in \Z \gilt \exp(n) = e^n\)
  5. \(\forall x \in \R \gilt \exp(x) = \liminf{n}\left(1 + \frac{x}{n}\right)^n\)
  6. \(\exp \colon \R \to \R_{>0}\) ist streng monoton wachsend und bijektiv.
  7. Es gilt \(\lim_\limits{x \to 0} \frac{\exp(x) - 1}{x} = 1.\)
Beweis

Die Beweise für (a)-(d) folgen aus auto und (e) aus auto. Die Beweise für (f) und (g) überlassen wir Ihnen zur Übung.

Sie werden in ihrem Studium noch häufig das Wachstum zweier Funktionen miteinander vergleichen, um zum Beispiel Aussagen darüber zu treffen, wie viel langsamer ein Algorithmus wird, wenn man die Elemente einer darin vorkommenden Menge verdoppelt (z.B. einen Sortierungsalgorithmus auf ein doppelt so großes Array anwendet). Dabei ist es hilfreich, für die elementaren Funktionen zu wissen, wie schnell diese im Verhältnis zueinander wachsen. Vergleichen wir also das Wachstum von \(x^k\) mit dem von \(\exp(x)\):

Für beliebige \(n \in \N_0\) gilt: \[ \begin{align*} &\lim_\limits{x \to \infty} \frac{\exp(x)}{x^n} = \infty\\[2mm] &\lim_\limits{x \to -\infty} \exp(x)x^n = 0 \end{align*} \]

Beweis

Für \(x > 0\) sind alle Terme der Exponentialreihe positiv. Damit gilt durch Weglassen aller Terme bis auf einen \[\exp(x) > \frac{x^{n + 1}}{(n + 1)!}\] und für den Kehrwert \[0 < \frac{x^n}{\exp(x)} < \frac{(n + 1)!}{x}.\] Da die rechte und linke Seite der Abschätzung für \(x \to \infty\) gegen \(0\) konvergieren, gilt nach dem Sandwich-Theorem \[\liminf{x} \frac{x^n}{\exp(x)} = 0.\]

Nach auto muss der Kehrwert divergieren: \[\liminf{x} \frac{\exp(x)}{x^n} = \infty .\]

Der zweite Teil des Satzes folgt mit der Substitution \(x \to -x\) aus dem ersten: \[\lim_\limits{-x \to -\infty} \exp(-x)(-x)^n = (-1)^n\lim_\limits{x \to \infty} \frac{x^n}{\exp(x)} = 0.\]

Mit anderen Worten: Die Exponentialfunktion wächst für \(x \to \infty\) schneller gegen \(\infty\) als jedes \(x^n\) und fällt für \(x \to -\infty\) schneller gegen \(0\) als jedes \(x^{-n}\).

Logarithmen und allgemeine Potenzen

Da die Exponentialfunktion eine bijektive Abbildung \(\exp : \R \to \R_{>0}\) ist, existiert eine Umkehrfunktion.

Wir bezeichnen die Umkehrfunktion der Exponentialfunktion \(\ln : \R_{>0} \to \R\) als den natürlichen Logarithmus.

skript-page-code-19030d50.gnuplot.svg

Aus der Definition ergeben sich direkt die folgenden Eigenschaften:

Für den natürlichen Logarithmus gilt:

  1. \(\ln(\exp(x)) = \exp(\ln(x)) = x\)

  2. \(\ln(1) = 0\) und \(\ln(e) = 1\)

  3. \(\ln(x) \,\begin{cases} <0 & \text{für } x \in (0, 1) \\ =0 & \text{für } x=1 \\ >0 & \text{für } x>1 \end{cases}\)

  4. \(\forall x,y \in \R_{>0} \gilt \ln(xy) = \ln(x) + \ln(y)\)

  5. \(\forall x \in \R_{>0}, n \in \Z \gilt \ln(x^n) = n\ln(x)\)

  6. Der natürlich Logarithmus ist stetig.

Beweise als Übung

Wir werden später noch sehen, wie wir Werte des natürlichen Logarithmus, wie z.B. \(\ln(2)\) beliebig genau approximieren können. Analog zum Satz vom Wachstum der Exponentialfunktion gibt es auch einen nützlichen Wachstumsvergleich für Logarithmen:

Für beliebige \(n \in \N\) gilt \[\liminf{x} \frac{\ln(x)}{\sqrt[n]{x}} = 0.\]

Der Logarithmus wächst also schwächer als jede Wurzelfunktion.

Beweis

Folgt aus dem ersten Satz vom Wachstum (auto) mit der Substitution \(x = e^{nx}\).

Wie Sie sich vielleicht erinnern, hatten wir für die harmonische Reihe damals gesagt, dass diese “gerade so” nicht konvergiert: Sie wächst zwar auf beliebig hohe Werte an, braucht dafür aber extrem viele Summanden. Ähnlich verhält es sich mit Logarithmen, und man kann sogar zeigen, dass gilt:

\[\sum^n_{k=1} \frac{1}{k} \approx \ln(n) + \gamma \quad \text{mit}\quad \gamma = 0.577215\ldots\]

\(\gamma\) ist die Euler-Mascheroni-Konstante und die Näherung wird für große \(n\) immer genauer. Logarithmisches Wachstum wird in der Informatik oft als Vergleichswert verwendet, um die Komplexität eines Algorithmus zu beschreiben (also wie viel länger muss dieser rechnen, wenn man die Größe eines Eingabeelements, z.B. eines Arrays, verdoppelt).

Mithilfe der Logarithmen können wir unsere Potenzdefinition aus auto auch auf allgemeine positive Basen und beliebige Exponenten erweitern:

Für \(a \in \R_{>0}\) sei die allgemeine Exponentialfunktion zur Basis \(a\) definiert als \(\exp_a: \R \to \R\) mit \[\exp_a(x) := \exp(x \ln(a)) .\]

Wir schreiben auch \(a^x\) anstelle von \(\exp_a(x)\).

Damit der Ausdruck \(a^x\) wohldefiniert ist, muss sich für \(x = n\in \Z\) wieder unsere alte Definition mit ganzzahligem Exponent ergeben. Außerdem zeigen wir im folgenden Satz, dass sich auch alle anderen Eigenschaften, die wir schon von ganzzahligen Potenzen kennen, übertragen lassen:

Sei \(a,b \in \R_{>0}\). Es gilt für die allgemeine Exponentialfunktion

  1. \(\exp_a(x)\) ist stetig für alle \(x \in \R\).

  2. \(\forall n \in \Z \gilt \exp_a(n) = a^n\)

  3. \(\forall x,y \in \R \gilt a^{x + y} = a^xa^y\)

  4. \(\forall x,y \in \R \gilt \left(a^{x}\right)^y = a^{xy}\)

  5. \(\forall x \in \R \gilt a^{x} b^{x} = \left(ab\right)^x\)

  6. \(\forall p \in \Z, q \in \N\setminus\set{1} \gilt a^{\frac{p}{q}} = \sqrt[q]{a^p}\)

Beweis
  1. Die Stetigkeit folgt, da \(\exp_a\) die Komposition der stetigen Funktionen \(\exp\) und \(\ln\) ist, die nach auto stetig ist.

  2. Beweis per Induktion:

    Induktionsannahme:
    \(n = 1\): \(\quad \exp_a{1} = \exp(1\ln(a)) = a = a^1\)

    Induktionsvoraussetzung:
    Wir nehmen an, die Behauptung gilt für ein \(n \in \N\).

    Induktionsschritt:
    Es folgt für \(n+1\): \[a^{n + 1} = \exp((n+1)\ln(a)) = \exp(n\ln(a))\exp(1\ln(a)) \stackrel{IV, IA}{=} a^n\cdot a = a^{n+1} .\] Damit gilt die Behauptung für alle \(n \in \N\).

    Sie gilt auch offensichtlich für \(n = 0\). Mit \[\exp_a(-n) = \exp(-n\ln(a)) = \frac{1}{\exp(n\ln(a))} = \frac{1}{\exp_a(n)} = \frac{1}{a^n} = a^{-n}\] gilt sie auch für alle negativen ganzen Zahlen.

  3. \(a^{x + y} = \exp((x + y)\ln(a)) = \exp(x\ln(a))\exp(y\ln(a)) = a^xa^y.\)

  4. \((a^{x})^y = \exp(y \ln(a^x)) = \exp(y x\ln(a)) = a^{xy}.\)

  5. \(a^{x}b^{x} = \exp(x \ln(a)) \exp(x \ln(b)) = \exp(x (\ln(a) + \ln(b))) = \exp(x \ln(ab)) = {(ab)}^{x}.\)

  6. Aus (d) folgt: \((a^{\frac{p}{q}})^{q} = a^p\). Damit ist \(x = a^{\frac{p}{q}}\) die Zahl, die für \(y = a^p\) die Gleichung \(x^q = y\) löst. Die Lösung \(x\) dieser Gleichung haben wir als die \(k\)-te Wurzel definiert. Also gilt: \(x = \sqrt[q]{y}\) bzw. \(a^{\frac{p}{q}} = \sqrt[q]{a^p}\).

Ähnlich zur Exponentialfunktion kann auch der Logarithmus für allgemeine Basen \(a \in \R_{>0}\setminus\set{1}\) definiert werden.

Sei \(a \in \R_{>0}\setminus\set{1}\), dann ist der Logarithmus zur Basis \(a\) definiert als \(\log_a: \R_{>0} \to \R\) mit \[\log_a(x) \mathrel{:=} \frac{\ln(x)}{\ln(a)} .\]

Der allgemeine Logarithmus löst die Gleichung \(a^x = b\) mit \(x = \log_a(b)\). Die Schreibweise zu Logarithmen ist in der Literatur nicht einheitlich. Manchmal bezeichnet \(\log(x)\) den natürlichen Logarithmus, den wir mit \(\ln(x)\) bezeichnen. Manchmal sieht man auch die Schreibweise \(\lg(x)\) für den dekadischen Logarithmus (\(a = 10\)) und \(\mathrm{lb}(x)\) für den binären Logarithmus (\(a = 2\)).

Wir haben vor einiger Zeit in auto gezeigt, dass \(\sqrt{2}\) nicht rational ist. Auch Logarithmen sind in viele Fällen nicht rational und hier ist der Widerspruchsbeweis noch deutlich offensichtlicher. Damals konnten wir Logarithmen leider noch nicht nutzen, weswegen \(\sqrt{2}\) das Standardbeispiel für eine irrationale Zahl ist.

Wir zeigen hier exemplarisch, dass \(\log_2{5}\) nicht rational ist.

Beweis

Es gilt

\[a^x = b \quad \Leftrightarrow \quad x = \log_a{b}\]

also in diesem Fall:

\[2^x = 5 \quad \Leftrightarrow \quad x = \log_2{5}.\]

Wir zeigen nun, dass das \(x\) nicht rational sein kann per Widerspruchsbeweis. Angenommen, es gäbe eine Lösung von \(2^x = 5\) mit \(x \in \Q\), also \(x = p/q\) für ein \(p \in \Z\) und \(q \in \N\) (für dieses Beispiel muss \(x\) übrigens kein gekürzter Bruch sein).

Dann folgt:

\[2^{\frac{p}{q}} = 5.\]

Wenn wir beide Seiten der Gleichung ‘hoch \(q\)’ nehmen, ergibt sich:

\[(2^{\frac{p}{q}})^q = 2^p = 5^q.\]

Die linke Seite der Gleichung ist ein Produkt aus Zweien und damit eine gerade Zahl. Dagegen ist die rechte Seite ein Produkt aus Fünfen, also ungerade. Dies ist ein Widerspruch, woraus folge, dass keine rationale Lösung von \(2^x = 5\) existiert.

Die Existenz einer reellen Lösung ist über die Stetigkeit der Exponentialfunktion garantiert, welche auf der Konvergenz von Folgen und damit auf der Vollständigkeit der reellen Zahlen beruht. \(\log_2{5}\) ist also irrational.

Die Exponentialfunktion kann genutzt werden, um Wachstums- oder Zerfallsprozesse zu beschreiben. So kann radioaktiver Zerfall durch die Formel \[n(t) = n(0)\cdot e^{-\lambda t}\] beschrieben werden. Dabei ist \(t \ge 0\) der Zeitparameter und \(n(t)\) die Anzahl der Kerne, die noch nicht zerfallen sind. Entsprechend ist \(n(0)\) die Anzahl der Kerne zu Beginn des Experiments. \(\lambda\) ist eine materialspezifische Zerfallskonstante, die zum Beispiel für Jod-131 \(10^{-6} s^{-1}\) beträgt. Wenn wir diesen Wert auf Tage umrechnen erhalten wir \(\lambda = 0.086 d^{-1}\).

Die Halbwertszeit eines Stoffes ist die Zeit \(\tau\), nach der die Hälfte der Kerne zerfallen ist. Es muss also gelten \[n(\tau) = n(0)\cdot e^{-\lambda \tau} = \frac{n(0)}{2}\] und somit \[ \ln\of{e^{-\lambda \tau}} = \ln\of{\frac{1}{2}} \quad\Leftrightarrow\quad -\lambda \tau = \ln\of{\frac{1}{2}} \quad\Leftrightarrow\quad \tau = \frac{\ln(2)}{\lambda} , \] da \(\ln\left(\frac{1}{2}\right) = -\ln(2)\). Für Jod 131 beträgt die Halbwertszeit ca. 8 Tage.

Hyperbolische Funktionen

Wir betrachten in diesem Abschnitt Funktionen, die normalerweise nicht zum Schulstoff gehören, aber trotzdem an vielen Stellen in der Praxis vorkommen. Außerdem bereiten sie die Definition der Sinus- und Cosinusfunktion vor. Beginnen wir mit der Definition einer wichtigen Funktionseigenschaft, der Symmetrie.

Sei \(A \subseteq \R\) eine Menge für die gilt: \(\ x \in A \Rightarrow -x \in A.\)

Wir nennen eine Funktion \(f: A \to \R\)

Wir können jede Funktion mit symmetrischem Definitionsbereich in eine gerade Funktion \(g(x)\) und eine ungerade Funktion \(u(x)\) aufteilen, sodass \[ \begin{align*} f(x) &= g(x) + u(x)\\ f(-x) &= g(-x) + u(-x) = g(x) + (-u(x)). \end{align*} \]

Daraus folgt die Aufteilung \[ \begin{align*} g(x) &= \frac{f(x) + f(-x)}{2}\\ u(x) &= \frac{f(x) - f(-x)}{2}. \end{align*} \]

Wir können leicht erkennen, dass \(g(x)\) auf diese Art immer gerade und \(u(x)\) immer ungerade ist. Wenden wir dies auf die Exponentialfunktion an, lassen sich die hyperbolischen Funktionen definieren:

Wir definieren die hyperbolischen Funktionen (jeweils \(\R \to \R\)): \[ \begin{align*} \cosh(x) &:= \frac{e^x + e^{-x}}{2} && \text{(Cosinus hyperbolicus)}\\ \sinh(x) &:= \frac{e^x - e^{-x}}{2} && \text{(Sinus hyperbolicus)}\\ \tanh(x) &:= \frac{\sinh(x)}{\cosh(x)} && \text{(Tangens hyperbolicus)} \end{align*} \]

Die hyperbolischen Funktionen sind stetig, da die Exponentialfunktion stetig ist.

skript-page-code-c8007db0.gnuplot.svg

Wir werden an dieser Stelle noch nichts zu den hyperbolischen Funktionen beweisen, da die Beweise alle recht einfach aus der Definition folgen und sich gut als Übung eignen. An dieser Stelle sollten Sie die Funktionen nur einmal gesehen haben und mit dem geraden und ungeraden Anteil der Exponentialfunktion in Verbindung bringen. Hier eine kleine Auswahl an Zusammenhängen:

Für die hyperbolischen Funktionen gelten für alle \(x,y \in \R\) die folgenden Eigenschaften:

  1. \(\exp(x) = \cosh(x) + \sinh(x)\)

  2. \(\cosh^2(x) - \sinh^2(x) = 1\)

  3. \(\displaystyle \cosh(x) = \sum_{k=0}^\infty \frac{x^{2k}}{(2k)!}\)

  4. \(\displaystyle \sinh(x) = \sum_{k=0}^\infty \frac{x^{2k + 1}}{(2k + 1)!}\)

  5. \(\cosh(x+y) = \cosh(x)\cosh(y) + \sinh(x)\sinh(y)\)

  6. \(\sinh(x+y) = \sinh(x)\cosh(y) + \cosh(x)\sinh(y)\)

Beweis als Übung

Die komplexe Exponentialfunktion

Analog zur Definition der reellen Exponentialfunktion können wir die komplexe Exponentialfunktion über die komplexe Exponentialreihe definieren:

Wir definieren die komplexe Exponentialfunktion als \[\exp : \C \to \C \quad\text{mit}\quad \exp(z) = e^z = \sum_{k=0}^\infty \frac{z^k}{k!}.\]

Offensichtlich sind die reelle und komplexe Exponentialfunktion für reelle Argumente identisch, weswegen wir dieselbe Abkürzung (\(\exp\)) verwenden. Da die Reihe für beliebige \(z \in \C\) konvergiert, ist die komplexe Exponentialfunktion wohldefiniert. Wir können fast alle Eigenschaften der Exponentialfunktion auch im Komplexen anwenden. Aber \(\exp(z) > 0\) sowie die Monotonie lassen sich im Komplexen nicht folgern, da die komplexen Zahlen kein geordneter Körper sind.

Die komplexe Exponentialfunktion ist die wohl wichtigste komplexe Funktion, welche an zahlreichen Stellen in Naturwissenschaften und Technik auftaucht. Sie beschreibt, wie wir noch zeigen werden, allgemeine Schwingungen. Auch Funktionen, die Sie eventuell mit Schwingungen assoziieren (Sinus und Cosinus) lassen sich auf die komplexe Exponentialfunktion zurückführen.

Wir haben gezeigt, dass wir die komplexe Konjugation einer Summe oder eines Produktes in die einzelnen Summanden/Faktoren ziehen können. Damit ergibt sich mit \(z = a + \i b\) für \(a,b \in \R\): \[\overline{e^z} = e^\overline{z} = e^{a - \i b} .\]

Für den Betrag der komplexen Exponentialfunktion ergibt sich demnach \[ \abs{e^z} = \sqrt{e^z \overline{e^z}} = \sqrt{e^{a + \i b} e^{a - \i b}} = \sqrt{e^{2a}} = e^a . \]

Der Betrag eines Funktionswerts \(e^z\) entspricht also der reellen Exponentialfunktion des Realteils von \(z\). Im nächsten Abschnitt beschäftigen wir uns mit rein imaginären Argumenten der Exponentialfunktion, also \(z = \i x, x \in \R\). Hierfür ergibt sich nach der vorigen Betrachtung \[\abs{e^{\i x}} = e^0 = 1.\]

Funktionswerte für rein imaginäre Argumente liegen also auf dem Einheitskreis (mit Radius \(1\)) in der komplexen Ebene. Wir werden im folgenden Abschnitt den Real- und Imaginärteil dieser Funktionswerte genauer betrachten.

Trigonometrische Funktionen

Wir kombinieren nun unser Wissen aus den zwei vorangegangenen Kapiteln. Aus der Schule kennen Sie vielleicht die Darstellung der trigonometrischen Funktionen am Einheitskreis: Der \(x\)-Wert zu einem Punkt auf dem Einheitskreis ist der Cosinus des entsprechenden Winkels, und der dazugehörige \(y\)-Wert ist der Sinus. Etwas Ähnliches machen wir nun auch in der komplexen Ebene: Hier ist der \(x\)-Wert der Realteil und der \(y\)-Wert der Imaginärteil eines Funktionswertes der komplexen Exponentialfunktion.

Demo: Sinus und Cosinus in der komplexen Ebene

Sie können den Punkt auf dem komplexen Einheitskreis bewegen. Der Realteil der Punktes ist als \(\cos(x)\) definiert und der Imaginärteil als \(\sin(x)\). Achtung: Wir wissen bisher noch nicht, wo auf dem Einheitskreis \(e^{\i x}\) für ein bestimmtes \(x\) liegt (außer für \(x = 0\)).

Basiert auf Demo von JJW5432

Wir definieren die trigonometrischen Funktionen \(\sin\colon\R\to\R\), \(\cos\colon\R\to\R\) und \(\tan\colon\set{x \in \R \mid \cos(x) \neq 0} \to \R\) als \[ \begin{align*} \cos(x) &:= \mathrm{Re}(e^{\i x}) = \frac{e^{\i x} + e^{-\i x}}{2} && \text{(Cosinus)}\\ \sin(x) &:= \mathrm{Im}(e^{\i x}) = \frac{e^{\i x} - e^{-\i x}}{2\i} && \text{(Sinus)}\\ \tan(x) &:= \frac{\sin(x)}{\cos(x)} && \text{(Tangens)}. \end{align*} \]

skript-page-code-83d27dff.gnuplot.svg

Hierbei wurde ausgenutzt, dass für den Realteil \(a = \Re{z}\) einer komplexen Zahl \(z = a + \i b\) gilt \(a = (z + \overline{z})/2\), sowie für den Imaginärteil: \(b = \Im{z} = (z - \overline{z})/(2\i)\). Sinus und Cosinus sind stetig, da sie sich aus der stetigen Exponentialfunktion ergeben. Vermutlich fällt Ihnen die große Ähnlichkeit zu den hyperbolischen Funktionen auf, tatsächlich gilt \(\cosh(\i x) = \cos(x)\) und \(\sinh(\i x) = \i\sin(x)\). Wir können für die trigonometrischen Funktionen ähnliche Eigenschaften nachweisen, wie für die hyperbolischen Funktionen:

Für die trigonometrischen Funktionen gelten für alle \(x,y \in \R\) die folgenden Eigenschaften:

  1. \(\exp(\i x) = \cos(x) + \i\sin(x)\quad\) (Eulersche Formel)

  2. \(\cos^2(x) + \sin^2(x) = 1\)

  3. \(\abs{\sin(x)} \leq 1\) und \(\abs{\cos(x)} \leq 1\)

  4. \(\displaystyle \cos(x) = \sum^\infty_{k=0}{(-1)^k\frac{x^{2k}}{(2k)!}}\)

  5. \(\displaystyle \sin(x) = \sum^\infty_\limits{k = 0}{(-1)^k\frac{x^{2k + 1}}{(2k + 1)!}}\)

  6. \(\cos(x + y) = \cos(x)\cos(y) - \sin(x)\sin(y)\)

  7. \(\sin(x + y) = \sin(x)\cos(y) + \cos(x)\sin(y)\)

Beweis
  1. Folgt direkt aus der Definition.

  2. \(\left(\frac{e^{\i x} + e^{-\i x}}{2}\right)^2 + \left(\frac{e^{\i x} - e^{-\i x}}{2\i}\right)^2 = (e^{2\i x} + 2 + e^{-2\i x})/4 + (e^{2\i x} - 2 + e^{-2\i x})/(-4) = 1.\)

  3. Wäre einer der Beträge größer als \(1\), dann folgt \(\sin^2(x) + \cos^2(x) = \abs{\sin(x)}^2 + \abs{\cos(x)}^2 > 1\), was im Widerspruch zu (b) steht.

  4. Hierfür muss die Exponentialreihe in ihre geraden und ungeraden Anteile zerlegt werden \[ \begin{align*} \frac{e^{\i x} + e^{-\i x}}{2} &= \frac{1}{2}\sum^\infty_\limits{k = 0}\left(\frac{(\i x)^k}{k!} + \frac{(-\i x)^k}{k!}\right)\\ &= \frac{1}{2}\sum^\infty_\limits{k = 0}\left(\frac{(\i x)^{2k}}{(2k)!} + \frac{(-\i x)^{2k}}{(2k)!}\right) + \frac{1}{2}\sum^\infty_\limits{k = 0}\left(\frac{(\i x)^{2k + 1}}{(2k + 1)!} + \frac{(-\i x)^{2k + 1}}{(2k + 1)!}\right)\\ &= \frac{1}{2}\sum^\infty_\limits{k = 0}\left(\frac{(\i x)^{2k}}{(2k)!} + \frac{(\i x)^{2k}}{(2k)!}\right) + \frac{1}{2}\sum^\infty_\limits{k = 0}\left(\frac{(\i x)^{2k + 1}}{(2k + 1)!} - \frac{(\i x)^{2k + 1}}{(2k + 1)!}\right)\\ &= \sum^\infty_\limits{k = 0}\frac{\i^{2k}x^{2k}}{(2k)!} \\ &= \sum^\infty_\limits{k = 0}(-1)^k\frac{x^{2k}}{(2k)!} \end{align*} \]

  5. Analog zu (d).

  6. Wir beginnen von rechts: \[ \begin{align*} &\cos(x)\cos(y) - \sin(x)\sin(y) \\ &= \frac{(e^{\i x} + e^{-\i x})(e^{\i y} + e^{-\i y})}{4} - \frac{(e^{\i x} - e^{-\i x})(e^{\i y} - e^{-\i y})}{4\i^2} \\ &= \frac{e^{\i(x + y)} + e^{\i(x - y)} + e^{\i(y - x)} + e^{-\i(x + y)}}{4} + \frac{e^{\i(x + y)} - e^{\i(x - y)} - e^{\i(y - x)} + e^{-\i(x + y)}}{4}\\ &= \frac{e^{\i(x + y)} + e^{-\i(x + y)}}{2} = \cos(x + y). \end{align*} \]

  7. Analog zu (f).

Die letzten beiden Erkenntnisse des Satzes gehören zu einer Reihe sogenannter Additionstheoreme. Diese sind in der Schule nur sehr schwer nachvollziehbar, lassen sich aber hier recht einfach aus der Darstellung über die komplexe Exponentialfunktion herleiten. Die Eigenschaft (b) ist im Grunde der Satz des Pythagoras. Die bekanntere Form \(a^2 + b^2 = c^2\) für ein rechtwinkliges Dreieck mit Katheten \(a,b\) und Hypotenuse \(c\) ergibt sich, wenn man das Dreieck aus der letzten Demo um den Faktor \(c\) vergrößert (siehe nachfolgende Abbildung).

../images/pythagoras.svg

Wir können über die Reihendarstellung nun die ungefähre Lage bestimmter Funktionswerte auf dem Einheitskreis berechnen. So gilt beispielsweise \[ \cos(1) \;=\; 1 - \frac{1}{2!} + \frac{1}{4!} - \frac{1}{6!} + \frac{1}{8!} - \frac{1}{10!} + \ldots \;=\; \underbrace{1 - \frac{1}{2!}}_{>0} + \underbrace{\frac{1}{4!} - \frac{1}{6!}}_{>0} + \underbrace{\frac{1}{8!} - \frac{1}{10!}}_{>0} + \ldots > 0 \] und \[ \sin(1) \;=\; \frac{1}{1!} - \frac{1}{3!} + \frac{1}{5!} - \frac{1}{7!} + \frac{1}{9!} - \frac{1}{11!} + \ldots \;=\; \underbrace{\frac{1}{1!} - \frac{1}{3!}}_{>0} + \underbrace{\frac{1}{5!} - \frac{1}{7!}}_{>0} + \underbrace{\frac{1}{9!} - \frac{1}{11!}}_{>0} + \ldots > 0 . \]

Damit sind sowohl Sinus als auch Cosinus für \(x = 1\) positiv und \(e^\i\) liegt im ersten Quadranten auf dem Einheitskreis. Wir haben bereits in auto die Vermutung formuliert, dass das Produkt zweier komplexer Zahlen einer Drehung in der komplexen Ebene entspricht. Demnach müsste der Wert von \(e^{2\i} = e^\i \cdot e^\i\) doppelt so weit von der reellen Achse aus gedreht sein wie \(e^\i\). Trotzdem hilft uns das nicht wirklich weiter, ohne die Lage eines Punktes (außer \(x = 0\)) genau zu kennen. Ähnlich wie auch schon bei der reellen Exponentialfunktion, bei der wir die Eulersche Zahl einfach als \(\exp(1)\) definiert haben (ohne den Wert genau zu kennen), werden wir nun hier einen Punkt der komplexen Exponentialfunktion (genauer gesagt ihres Realteils, also der Cosinusfunktion) festlegen. Damit definieren wir eine zweite sehr wichtige mathematische Konstante, die Kreiszahl \(\pi\). Wie bei der Eulerschen Zahl müssen wir dafür den genauen Wert von \(\pi\) gar nicht kennen und werden trotzdem viele wichtige Schlüsse für die trigonometrischen Funktionen daraus ableiten. Für die Definition von \(\pi\) beweisen wir zunächst zwei nützliche Abschätzungen.

Für \(x \in (0,2]\) gilt: \[ \begin{align*} 1 - \frac{x^2}{2} &< \cos(x) < 1 - \frac{x^2}{2} + \frac{x^4}{4!}\\ x - \frac{x^3}{3!} &< \sin(x) < x. \end{align*} \]

Beweis

Wir führen den Beweis für den Cosinus, die Sinusabschätzung erfolgt analog.

Betrachten wir zwei aufeinanderfolgende Summanden der Cosinusreihe (siehe autod):

\[\frac{|a_{k+1}|}{|a_k|} = \frac{\frac{x^{2k + 2}}{(2k+2)!}}{\frac{x^{2k}}{(2k)!}} = \frac{x^2}{(2k+1)(2k+2)}.\]

Für \(x \leq 2\) folgt \(\frac{|a_{k+1}|}{|a_k|} < 1\). Jeder Summand ist demnach betragsmäßig kleiner als sein Vorgänger. Daraus folgt:

\(\cos(x) = 1 - \frac{x^2}{2} + \underbrace{\left(\frac{x^4}{4!} - \frac{x^6}{6!}\right)}_{>0} + \underbrace{\left(\frac{x^8}{8!} - \frac{x^10}{10!}\right)}_{>0} + \ldots + \underbrace{\left(\frac{x^{2k}}{(2k)!} - \frac{x^{2k+2}}{(2k + 2)!}\right)}_{>0} + \ldots > 1 - \frac{x^2}{2}\)

und analog

\(\cos(x) = 1 - \frac{x^2}{2} + \frac{x^4}{4!} + \underbrace{\left(-\frac{x^6}{6!} + \frac{x^8}{8!}\right)}_{<0} - \ldots + \underbrace{\left(-\frac{x^{2k}}{(2k)!} + \frac{x^{2k+2}}{(2k + 2)!}\right)}_{<0} - \ldots < 1 - \frac{x^2}{2} + \frac{x^4}{4!}.\)

Also insgesamt \(1 - \frac{x^2}{2} < \cos(x) < 1 - \frac{x^2}{2} + \frac{x^4}{4!}\).

Solche Abschätzungen ergeben sich häufig für alternierende Reihen und sind sehr nützlich, um den Reihengrenzwert abzuschätzen. Dies nutzen wir im folgenden Satz:

\(\cos(x)\) besitzt im Intervall \((0,2)\) genau eine Nullstelle.

Beweis

Aus der Abschätzung des Cosinus folgt \(\cos(2) < 1 - 2 + 2/3 = -1/3\). Es gilt außerdem \(\cos(0) = 1\).

Nach dem Zwischenwertsatz existiert also mindestens ein \(x \in (0,2)\) mit \(\cos(x) = 0\). Es fehlt noch zu zeigen, dass dies die einzige Nullstelle in diesem Intervall ist. Dafür zeigen wir, dass \(\cos(x)\) in diesem Intervall streng monoton fallend ist. Wir nutzen dazu ein weiteres Additionstheorem (Beweis zur Übung):

\[\cos(x) - \cos(y) = -2\sin\of{\frac{x + y}{2}} \sin\of{\frac{x - y}{2}}.\]

Für \(x,y \in [0,2)\) und \(x > y\) gilt die Abschätzung für den Sinus aus auto, also: \[ \begin{align*} \sin\of{\frac{x + y}{2}} &> \frac{x + y}{2} > 0\\ \sin\of{\frac{x - y}{2}} &> \frac{x - y}{2} > 0 \end{align*} \]

Damit folgt insgesamt \(\cos(x) - \cos(y) < 0\), und somit ist \(\cos(x)\) im Intervall \((0,2)\) streng monoton fallend. Demnach kann nur eine Nullstelle existieren.

Da wir nun wissen, dass genau eine Nullstelle in diesem Intervall existiert, können wir dieser einen Namen geben: \(\pi/2\). Darüber definiert sich die berühmte Kreiszahl. Wir werden später noch zeigen, dass \(\pi\) auch das Verhältnis zwischen Umfang und Durchmesser eines Kreises beschreibt, womit die Konstante normalerweise assoziiert wird. An dieser Stelle würde uns die Kreisumfangdefinition jedoch nicht weiterhelfen, weswegen wir diese (für Sie vielleicht etwas ungewöhnlich wirkende) Definition wählen.

Sei \(s\) die Nullstelle der Cosinusfunktion im Intervall \((0,2)\). Dann definieren wir \[\pi := 2s\]

Wir bezeichnen Vielfache und Teile von \(\pi\), wie \(2\pi\) oder \(0.2\pi\) auch als Winkel im Bogenmaß. Wir können diese außerdem in das im Alltag gebräuchlichere Gradmaß umrechnen. Wenn \(x\) ein Winkel im Bogenmaß ist, dann ist der entsprechende Gradmaßwinkel \(180 x/\pi\). Zur Verdeutlichung schreiben wir einen kleinen Kreis an den Winkel im Gradmaß, also z.B. \(360^\circ\).

Obwohl wir den Wert von \(\pi\) noch nicht genau kennen (wir wissen bisher, dass \(1 < \pi/2 < 2\), denn wir haben gezeigt, dass \(\cos(1) > 0\) und \(\cos(2) < 0\) gilt), können wir damit jetzt für Vielfache und Teile von \(\pi\) die Sinus und Cosinusfunktionswerte bestimmen:

Es gilt für die Funktionswerte der trigonometrischen Funktionen

\(x\) \(0\) \(\pi/6\) \(\pi/4\) \(\pi/3\) \(\pi/2\) \(\pi\) \(3\pi/2\) \(2\pi\)
\(\cos(x)\) \(1\) \(\frac{\sqrt{3}}{2}\) \(\frac{1}{\sqrt{2}}\) \(\frac{1}{2}\) \(0\) \(-1\) \(0\) \(1\)
\(\sin(x)\) \(0\) \(\frac{1}{2}\) \(\frac{1}{\sqrt{2}}\) \(\frac{\sqrt{3}}{2}\) \(1\) \(0\) \(-1\) \(0\)
\(\tan(x)\) \(0\) \(\frac{1}{\sqrt{3}}\) \(1\) \(\sqrt{3}\) \(0\) \(0\)

Allgemein gilt für alle \(x \in \R\):

\[ \begin{align*} \cos(x + \pi/2) &= -\sin(x) &\qquad \sin(x + \pi/2) &= \cos(x)\\ \cos(x + \pi) &= -\cos(x) &\qquad \sin(x + \pi) &= -\sin(x)\\ \cos(x + 2\pi) &= \cos(x) &\qquad \sin(x + 2\pi) &= \sin(x) \end{align*} \]

Beweis

Wir betrachten hier exemplarisch ein paar ausgewählte Werte der Tabelle, die übrigen können Sie analog als Übung bestimmen:

Aus \(\sin^2(\pi/2) + \cos^2(\pi/2) = 1\) und \(\cos(\pi/2) = 0\) folgt \(|\sin(\pi/2)| = 1\). Da wir bereits mit der Abschätzung des Sinus argumentiert haben, dass der Sinus bei \(x = \pi/2\) positiv ist, folgt \(\sin(\pi/2) = 1\).

Es gilt also insgesamt \(e^{\i\pi/2} = 0 + \i = \i\) und damit folgt \[ e^{\i\pi} = e^{\i\pi/2} e^{\i\pi/2} = \i^2 = -1 + \i \cdot 0, \] demnach ist \(\cos(\pi) = -1\) und \(\sin(\pi) = 0.\) Analog folgt für \(e^{\i\pi/4} = a + \i b\), dass \[ e^{\i\pi/4} e^{\i\pi/4} = (a + \i b)^2 = (a^2 - b^2) + \i (2ab) = e^{\i\pi/2} = \i \] gelten muss, also \(a^2 - b^2 = 0\) und \(2ab = 1\). Daraus folgt \(a = b = 1/\sqrt{2}\) und insgesamt \(\cos(\pi/4) = \sin(\pi/4) = 1/\sqrt{2}\). Aus ähnlichen Überlegungen ergeben sich die übrigen Tabellenwerte.

Für den zweiten Teil des Satzes benutzt man die Additionstheoreme aus auto und die entsprechenden Tabelleneinträge des ersten Satzteils: \[ \begin{align*} \cos(x + \pi/2) &= \cos(x)\cos(\pi/2) - \sin(x)\sin(\pi/2) &= \cos(x)\cdot 0 - \sin(x)\cdot 1 &= -\sin(x)\\ \cos(x + \pi) &= \cos(x)\cos(\pi) - \sin(x)\sin(\pi) &= \cos(x)\cdot (-1) - \sin(x)\cdot 0 &= -\cos(x)\\ \cos(x + 2\pi) &= \cos(x)\cos(2\pi) - \sin(x)\sin(2\pi) &= \cos(x)\cdot 1 - \sin(x)\cdot 0 &= \cos(x) \end{align*} \]

Die Äquivalenzen für den Sinus beweist man analog.

Ein Nebenprodukt des letztes Satzes ist die Formel, die von Mathematiker*innen zur “schönsten Formel der Welt” gekürt wurde: \[e^{\i\pi} + 1 = 0.\] Diese Formel enthält immerhin fünf der wichtigsten mathematischen Konstanten: das Nullelement, das Einselement, die Eulersche Zahl, die imaginäre Einheit und die Kreiszahl. In der folgenden Demo wird diese Formel benutzt, um einen anschaulichen Zusammenhang zwischen unserer Definition von \(\pi\) und der herkömmlichen Variante über den Kreisumfang herzustellen.

Demo: Pi und der Kreis

In dieser Demo nutzen wir die Folgendarstellung der Exponentialfunktion \[e^z = \left(1 + \frac{z}{n}\right)^n.\]

Für \(z = \i\pi\) sollte diese Folge (laut der “schönsten Formel”) gegen \(-1\) konvergieren. In der Demo wird die Folge \[\left(1 + \i\frac{\pi}{n}\right)^n\] visualisiert. Zu Beginn ist \(n = 1\) eingestellt und es wird \(z_n = z_1 = (1 + \i\pi)\) in der komplexen Ebene angezeigt (in der Demo wird der Wert von \(\pi\) als bekannt angenommen). Über den ersten Schieberegler können Sie das \(n\) der Folge recht grob einstellen. Um zu verstehen, wie die Demo funktioniert, stellen Sie zunächst \(n = 2\) ein und lesen Sie dann weiter.

Basiert auf Demo von JJW5432

Nun werden zwei komplexe Zahlen angezeigt (die blauen Punkte) und zwar \[ z = \left(1 + \i\frac{\pi}{2}\right) \quad\text{und}\quad z_2 = z^2 = \left(1 + \i\frac{\pi}{2}\right)^2. \]

Wie wir bereits in einer früheren Demo gesehen haben (und im folgenden Abschnitt endlich beweisen werden), entspricht die komplexe Multiplikation einer Drehung um den Winkel, der mit der reellen Achse eingeschlossen wird. Dies wird durch die Dreiecke angezeigt: \(z_2 = z \cdot z\) schließt den doppelten Winkel von \(z\) zur reellen Achse ein. Es gilt außerdem \(|z^2| = |z_2| = |z|^2\). Der Abstand zum Ursprung (grüne Linie) erhöht sich also beim Quadrieren der komplexen Zahl, da \(|z| > 1\). Wenn Sie \(n\) über den Regler bis auf \(5\) erhöhen, werden \(5\) komplexe Zahlen (blaue Punkte) gezeigt und zwar:

\[z = \left(1 + i\frac{\pi}{5}\right) \quad, z^2, z^3, z^4 \quad \text{und}\quad z_5 = z^5 = \left(1 + i\frac{\pi}{5}\right)^5.\]

Die komplexe Potenzierung wird wieder dargestellt als Aneinanderreihung von Dreiecken. Dabei sind die mittleren Winkel der Dreiecke stets gleich groß, aber der Betrag der komplexen Zahlen (grüne Linie) vergrößert sich mit jeder Potenz. Mit dem zweiten Schieberegler können Sie \(n\) noch deutlich stärker erhöhen. Dabei nähert sich der Betrag der ersten komplexen Zahl \(z\) immer stärker der \(1\) an, wodurch sich der Betragszuwachs durch die Potenzierung immer weiter verkleinert. Die höheren Potenzen liegen also immer näher am Kreis, wenn wir \(n\) immer weiter erhöhen.

Die Höhe der ersten blauen Linie ist stets \(\frac{\pi}{n}\). Je höher das \(n\) gewählt wird, desto weniger weicht die Länge der \(n - 1\) anderen blauen Linien von der der ersten ab. Wir bekommen also im Grenzfall eine Gesamtlänge der blauen Strecke von \(n \cdot \frac{\pi}{n} = \pi\). Die Demo zeigt also anschaulich, dass, auch mit unserer Definition von \(\pi\), bei einem Halbkreis vom Radius \(1\) die Länge des Kreisbogens \(\pi\) entspricht.

Auch die Flächen der Dreiecke werden bei großen \(n\) immer ähnlicher. Die Fläche des ersten Dreiecks entspricht \(A_1 = 1/2 \cdot 1 \cdot \pi/n = \pi/(2n)\) für hohe Werte von \(n\) füllen \(n\) dieser Flächen den Halbkreis. Es ergibt sich also eine Gesamtkreisfläche von \(2n \cdot A_1 = \pi\). Ein formaler Beweis dieser Zusammenhänge folgt erst später.

Wegen der letzten beiden Eigenschaften des vorigen Satzes sind Sinus und Cosinus (und Tangens und die komplexe Exponentialfunktion) sogenannte periodische Funktionen:

Eine Funktion \(f: \R \to \R\) heißt periodische Funktion, wenn es ein \(p > 0\) gibt, so dass \[f(x) = f(x+p)\] für alle \(x \in \R\).

Das kleinste \(p \in \R_{>0}\) mit der obigen Eigenschaft heißt Periode der Funktion \(f\).

\(\sin(x)\) und \(\cos(x)\) haben also die Periode \(2\pi\). Zuletzt geben wir noch alle Nullstellen der Sinus und Cosinusfunktion an:

Die Sinusfunktion besitzt genau die Nullstellen \(x_k = k\pi\) mit \(k \in \Z\).

Die Cosinusfunktion besitzt genau die Nullstellen \(x_k = k\pi + \pi/2\) mit \(k \in \Z\).

Beweis

Wir haben bereits gezeigt, dass \(x_0 = \pi/2\) die einzige Nullstelle der Cosinusfunktion für \(x \in [0,2]\) ist, also ist \(x_0\) auch die einzige Nullstelle im kleineren Intervall \([0,\pi/2]\). Da der Cosinus achsensymmetrisch ist, ist \(x_0\) auch die einzige Nullstelle im Intervall \((-\pi/2,\pi/2]\).

Da \(\cos(x + \pi) = -\cos(x)\) gilt, sind demnach \(x_0 = \pi/2\) und \(x_1 = \pi/2 + \pi\) die einzigen Nullstellen in \((-\pi/2,\pi/2 + \pi]\).

Dieses Intervall hat eine Länge von \(2\pi\). Da der Cosinus \(2\pi\)-periodisch ist, liegen die einzigen Nullstellen somit bei \(x_k = k\pi + \pi/2 \ \forall k \in \Z\).

Die Sinusnullstellen folgen durch \(\sin(x) = -\cos(x + \pi/2)\).

Wenn wir Sinus, Cosinus und Tangens jeweils auf ein Gebiet einschränken, auf dem sie streng monoton sind, also zum Beispiel \(\cos : [0,\pi] \to [-1,1]\), können wir jeweils Umkehrfunktionen definieren. Diese nennt man Arcussinus \(\arcsin(x)\), Arcuscosinus \(\arccos(x)\) und Arcustangens \(\arctan(x)\). Oft werden sie auch mit \(\mathrm{asin}(x)\), \(\mathrm{acos}(x)\) und \(\mathrm{atan}(x)\) bezeichnet. Mit den Eigenschaften dieser Funktionen werden wir uns in den Übungen beschäftigen.

Die Polarkoordinaten komplexer Zahlen

Als Nebenprodukt aus den Erkenntnissen des letzten Kapitels können wir noch eine alternative Schreibweise für komplexe Zahlen einführen, mit welcher sich manche Rechnungen deutlich vereinfachen lassen. Wir hatten bei der Einführung komplexer Zahlen bereits gezeigt, dass wir jede komplexe Zahl \(z\) als \(z = \abs{z} \hat{z}\) für ein \(\hat{z} \in \set{z \in \C \mid \abs{\hat{z}} = 1}\). Damit liegt \(\hat{z}\) in der komplexen Eben auf dem Einheitskreis und es gibt ein \(\phi \in \R\) mit \[ z = \abs{z} e^{\i\phi} = r e^{\i\phi}. \] Damit können wir komplexe Zahlen über einen Radius (Abstand zum Ursprung \((0,0)\)) und einen Winkel zur reellen Achse \(\phi\) dargestellen. Dies zeigen wir einmal formal mit folgendem Satz.

Für jede komplexe Zahl \(z \in \C\) existiert ein \(\phi \in \R\), sodass \[ z = \abs{z} e^{\i\phi} = \abs{z} \cos\phi + \i\abs{z} \sin\phi . \]

Für \(z \neq 0\) ist \(\phi\) bis auf eine Addition mit Vielfachen von \(2\pi\) eindeutig.

Das Paar \((\abs{z}, \phi)\) bezeichnen wir als Polarkoordinaten von \(z\) und \(\phi\) als Argument von \(z\).

Beweis

Für \(z = 0\) gilt für jede Wahl von \(\phi\) offensichtlich \(z = 0 = \abs{0} e^{\i\phi}\).

Für \(z \neq 0\) betrachten wir zunächst den Fall \(\mathrm{Im}(z) \geq 0\). Wir setzen \(\hat{z} := \frac{z}{\abs{z}} = \hat{a} + \i\hat{b}\) mit \(\hat{a},\hat{b} \in \R\). Dann ist \(\abs{\hat{z}}^2 = \hat{a}^2 + \hat{b}^2 = 1\) und \(\hat{b} \geq 0\).

Wegen \(\cos 0 = 1\) und \(\cos \pi = -1\) und \(a \in [-1,1]\) gibt es nach dem Zwischenwertsatz ein \(\pi \in [0,\pi]\) mit \(\cos\phi = a\). Wir wählen \(\phi = \mathrm{acos}(\hat{a})\).

Aus \(\hat{a}^2 + \hat{b}^2 = 1\) folgt damit \[ \hat{b}^2 = 1 - \hat{a}^2 = 1 - \cos^2 \phi = \sin^2 \phi \] und wegen \(\hat{b} \geq 0\) gilt \(\sin\phi = \hat{b}.\)

Den Fall \(\mathrm{Im}(z) < 0\) führen wir auf den ersten Fall zurück, indem wir \(\bar{z}\) betrachten. Dort gilt wieder \(\mathrm{Im}(z) > 0\) und wir finden wie oben beschrieben ein \(\phi \in [0,\pi]\) mit \[ \bar{z} = \abs{\bar{z}} e^{\i\phi} = \abs{z} e^{\i\phi} \Leftrightarrow z = \abs{\bar{z}} \bar{e^{\i\phi}} = \abs{z} e^{-\i\phi}. \] Es gibt also ein \(-\phi \in [-\pi,0]\), das die Voraussetzungen erfüllt und somit für beliebige \(z\) ein \(\phi \in [-\pi, \pi]\).

Wir zeigen nun die Eindeutigkeit für \(z \neq 0\) bis auf additive Vielfache von \(2\pi\): Sei \(z = \abs{z} e^{\i\psi}\) eine weitere Darstellung von \(z\). Dann ist \[ 1 = \frac{z}{z} = \frac{\abs{z} e^{\i\phi}}{\abs{z} e^{\i\psi}} = e^{\i(\phi - \psi)} = \cos(\phi - \psi) + \i \sin(\phi - \psi). \] Daraus folgt \(\sin(\phi - \psi) = 0\) und \(\cos(\phi - \psi) = 1\). Aus auto folgt schließlich \[ \phi - \psi = 2\pi k, \quad k \in \Z. \]

Hieraus ergibt sich endlich ein simpler Beweis für unsere Vermutung, dass die Multiplikation komplexer Zahlen einer Drehung entspricht, wobei sich die Beträge multiplizieren und die Winkel addieren: \[ z_1 \cdot z_2 = \abs{z_1} e^{\i\phi_1} \cdot \abs{z_2} e^{\i\phi_2} = \abs{z_1 \cdot z_2} e^{\i(\phi_1 + \phi_2)}. \]

Ein weiteres Anwendungsbeispiel ist die deutliche Vereinfachung der Bestimmung komplexer Wurzeln und Potenzen.

Differentialrechnung

Nachdem wir bis zu diesem Punkt viel Vorarbeit geleistet haben, um Funktionen mathematisch genau zu beschreiben, können wir uns in diesem und dem folgenden Kapitel dem Herzen der Analysis zuwenden: der Differential- und Integralrechnung. Hierbei benötigen wir erneut Grenzwerte, denn in beiden Fällen spielen unendlich kleine Abstände eine entscheidende Rolle.

Die Differentialrechnung geht auf Leibniz und Newton zurück und ist die Basis für Differentialgleichungen, mit denen sich viele Vorgänge in der Natur und in technischen Systemen modellieren lassen. Darüber hinaus wird sie benutzt, um Funktionen zu optimieren, also einen Punkt \(x\) des Definitionsbereichs zu finden, an dem der Funktionswert \(f(x)\) maximal groß oder klein wird. Solche Optimierungen kommen in allen Naturwissenschaften und auch in der Informatik sehr häufig vor, da es oft einfacher ist, eine Funktion zu definieren, deren Optimum eine bestimmte Eigenschaft hat, als das Optimum direkt anzugeben.

Wir betrachten in diesem Kapitel die Differentialrechnung mit einer Veränderlichen, wie sie auch in der Schule behandelt wird. Nach einer generellen Einführung leiten wir die Ableitungsregeln her, führen höhere Ableitungen ein und nutzen schließlich die Ableitungen, um diverse Eigenschaften von Funktionen zu analysieren.

Differenzierbarkeit

In der Differentialrechnung arbeiten wir mit sogenannten Ableitungen von Funktionen. Wir werden feststellen, dass die Stetigkeit einer Funktion nicht ausreicht, um eine Ableitung bestimmen zu können. Man könnte sagen, stetige Funktionen sind noch nicht “gutmütig” genug. Deswegen wurde der Begriff der Differenzierbarkeit eingeführt, der die Existenz einer Ableitung sicherstellt.

Wenn wir uns zurückerinnern, hatte die Stetigkeit einer Funktion salopp bedeutet, dass ähnliche \(x\)-Werte auch ähnliche Funktionswerte besitzen, die Funktion also nicht plötzlich springt. Dies erlaubt es uns, den Graphen einer Funktion durchgängig zu zeichnen. Kennen wir also einen Punkt einer stetigen Funktion, wissen wir auch, dass es weitere Punkte der Funktion in jeder noch so kleinen Umgebung des Punktes gibt. Die Differenzierbarkeit erweitert dieses Wissen, indem sie uns eine Aussage darüber erlaubt, in welcher “Richtung” die benachbarten Punkte auf der Funktion liegen. Diese Richtung kann man sich mithilfe einer Tangente an einem Funktionspunkt visualisieren:

../images/diffbar.svg
Für \(x = a\) können wir die Lage benachbarter Funktionswerte näherungsweise durch die blaue Tangente beschreiben.

Es gibt Funktionen, die zwar stetig sind, aber deren Graph einen “Knick” besitzt, hier ist es nicht möglich eine klare Richtung (in Form einer Tangente) für die Lage umliegender Punkte anzugeben, da es zwei verschiedene Möglichkeiten für die Richtung gibt. Genau diese “Knickfreiheit” ist mit der Differenzierbarkeit einer Funktion gemeint.

../images/diffbar2.svg
Für \(x = a\) gibt es keine Tangente, welche die Lage benachbarter Funktionswerte (in beide Richtungen) gut beschreibt.
Demo: Tangenten

In der folgenden Demo können Sie den Punkt \(a\) beliebig bewegen und es wird jeweils die Tangente bei \(x=a\) angezeigt. An einer Stelle hat die Funktionen einen “Knick”. Wenn Sie das \(a\) über diesen Punkt bewegen, macht die Tangente einen Sprung. Am Knickpunkt selbst gibt es keine eindeutige Tangente.

Als Newton und Leibniz den Ableitungsbegriff entwickelten, hat man sich die Bestimmung einer Ableitung in etwa so vorgestellt: Man möchte wissen, wie sich die Funktionswerte \(f(x)\) verändern, wenn wir \(x\) um ein winzig kleines Stück \(dx\) verändern. Für eine lineare Funktion, wie zum Beispiel \(f(x) = 5x\) ergibt sich \[ \begin{align*} f(x + dx) \;&=\; 5(x + dx) \\ \;&=\; 5x + 5\cdot dx \\ \;&=\; f(x) + 5\cdot dx. \end{align*} \] Das heißt, wenn wir den \(x\)-Wert um ein kleines Stück vergrößern, dann nimmt der Funktionswert um das Fünffache dieses Wertes zu, die Änderungsrate der Funktion ist also \(5\).

Für eine nichtlineare Funktion, wie zum Beispiel \(f(x) = x^2\), ergibt sich mit der gleichen Überlegung \[ \begin{align*} f(x + dx) \;&=\; x^2 + 2x\cdot dx + (dx)^2 \\ \;&=\; f(x) + 2x\cdot dx + (dx)^2 \\ \;&\approx\; f(x) + 2x\cdot dx. \end{align*} \]

Die Idee der Begründer der “Infinitesimalrechnung” (wie die Differential- und Integralrechnung zusammenfassend genannt wird) war, dass \(dx\) so klein gewählt wird, dass höhere Potenzen von \(dx\), wie zum Beispiel \((dx)^2\), vernachlässigbar klein sind und wir somit sagen können: Wenn wir \(x\) um ein kleines Stück \(dx\) vergrößern, dann vergrößert sich der Funktionswert um das \(2x\)-fache von \(dx\). Die Änderungsrate der Funktion am Punkt \(x\) ist also \(2x\). Das Vernachlässigen des \((dx)^2\)-Terms löste in der Mathematik damals große Debatten aus, denn es wirkte so, als würde man nicht exakt arbeiten, sondern eher runden.

Sehen wir uns als letztes Beispiel noch \(f(x) = x^n\) an: \[ \begin{align*} f(x + dx) \;&=\; (x + dx)^n \\ \;&=\; \sum_{k=0}^n {n \choose k} x^{n-k}(dx)^k \\ \;&=\; x^n + nx^{n-1}dx + \frac{n(n+1)}{2}x^{n - 2}(dx)^2 + \ldots + (dx)^n \\ \;&\approx\; f(x) + nx^{n-1}dx \end{align*} \] Hier ergibt sich also eine Veränderung, die ein \(\left(nx^{n-1}\right)\)-faches von \(dx\) ist.

Was den Mathematiker*innen damals fehlte und weswegen diese Rechnungen in der damaligen Zeit recht “unmathematisch/ungenau” wirkten, war ein sauber definierter Grenzwertbegriff. Mit dem Vorwissen aus den vorigen Kapiteln fällt Ihnen vermutlich auf, dass sich die gewohnten Ableitungen ergeben, wenn wir für \[ \frac{f(x + dx) - f(x)}{dx} \] in den Rechnungen zuvor der Grenzwert (\(dx \to 0\)) betrachten. Man verwendet den Ausdruck \(dx\) mittlerweile nicht mehr, sondern benutzt stattdessen normalerweise eine kleine Änderung \(h\). Allerdings sieht man das \(dx\) noch in der Schreibweise der Ableitung \(\frac{df(x)}{dx}\), auch wenn in der Schule häufiger \(f'\) geschrieben wird. Das \(d\) steht hierbei immer für eine unendlich kleine Differenz der Funktionswerte \(\left(df(x)\right)\) bzw. der Argumente \(\left(dx\right)\).

Sei \(a \in A \subseteq \R\) und sei \(f: A\to \R\) eine Funktion. \(f\) heißt in \(a\) differenzierbar, falls der Grenzwert \[ \lim_{\substack{x \to a\\ x \in A\setminus\set{a}}} \frac{f(x) - f(a)}{x-a} \] existiert. Wir schreiben für den Grenzwert \(f'(a)\) oder \(\frac{df}{dx}(a)\) oder \(\left. \frac{df(x)}{dx} \right|_{x=a}\) und nennen ihn die Ableitung an der Stelle \(a\).

Ersetzt man \(x = a + h\), ergibt sich die alternative Schreibweise \[ f'(a) \;=\; \left. \frac{df(x)}{dx} \right\vert_{x=a} \;=\; \limto{h}{0} \frac{f(a + h) - f(a)}{h}. \]

Eine Funktion heißt differenzierbar, wenn der Grenzwert für jedes \(a \in A\) existiert. In diesem Fall bezeichnen wir \(f'(x) = \frac{df}{dx}(x)\) als die Ableitung von \(f\).

In der obigen Definition bedeutet \(\lim\limits_{\substack{x \to a\\ x \in A\setminus\set{a}}}\), dass \(x\) gegen \(a\) geht, dabei aber nur Werte aus \(A\setminus\set{a}\) annimmt, damit wir nicht durch \(0\) teilen.

Zur Erinnerung: Ein Grenzwert existiert nur dann, wenn er eine reelle Zahl ist. Ein Grenzwert von \(f'(a) = \pm \infty\) bedeutet also, dass der Grenzwert nicht existiert.

Man kann die Grenzwertbildung in der Definition der Ableitung auch geometrisch interpretieren. Dabei entspricht \(\frac{f(x)-f(a)}{x-a}\) der Steigung der Sekante des Graphen von \(f\) im Punkt \((a, f(a))\). Beim Grenzübergang geht die Sekante in die Tangente im Punkt \(a\) über, welche die Tangentengleichung \(f(a)+f'(a)(x-a)\) hat. In den folgenden beiden Demos können Sie mit der graphischen Interpretation der Ableitung experimentieren.

Demo: Ableitungen 1

Diese Demo verdeutlicht den Grenzübergang in der Ableitungsdefinition. Ausgehend von einer Sekante zwischen den Punkten \(a\) und \(a+h\) können Sie \(h\) über den Schieberegler langsam verringern. Bei \(h=0\) geht die Sekante in eine Tangente über und der Differenzenquotient in die Ableitung an der Stelle \(a\). Sie können auch die Funktion über das Eingabefeld verändern.

Demo: Ableitungen 2

Diese Demo “zeichnet” die Ableitung einer eingegebenen Funktion mithilfe der Tangentensteigung (Größe von \(k\)), wenn Sie auf das Play-Symbol links klicken. Die Funktion wird oben gezeigt und die Ableitung in das zweite Koordinatensystem unten eingezeichnet. Testen Sie gerne verschiedene Funktionen aus. Bevor Sie eine neue Funktion eingeben, sollten Sie die Demo über den Knopf links oben zurücksetzen. Bei der Eingabe können Sie das “^”-Zeichen für eine Potenz, also z.B. “x^2” verwenden. Die meisten Funktionsnamen (wie “exp(…)”) werden auch erkannt. Wurzeln bekommen Sie über “sqrt(…)”.

Die Ableitung einer Funktion hat in Naturwissenschaften und Technik eine wichtige Bedeutung, da sie die momentane Änderungsrate einer Funktion angibt. Zum Beispiel gibt die Ableitung einer Funktion, welche den Ort eines Objektes in Abhängigkeit zur Zeit beschreibt, die Geschwindigkeit des Objektes an.

Um die Differenzierbarkeit einer Funktion zu zeigen, nutzen wir unser Wissen über Stetigkeit: Für eine stetige Funktion können wir die Grenzwertbildung durch “Einsetzen” durchführen. Allerdings stört hierbei das \(h\) im Nenner, welches gegen \(0\) laufen soll. Wir versuchen also in der Regel, den Grenzwertquotienten so umzuformen, dass das \(h\) im Nenner gekürzt werden kann. Anschließend können wir für eine stetige Funktion \(h = 0\) einfach einsetzen. Für die folgenden Beispiele sei \(c \in \R\) eine beliebige Konstante.

  1. Untersuche die Funktion \(f: \R\to\R ,\; f(x) = c\) \[ \begin{align*} f'(x) &= \limto{h}{0} \frac{f(x+h)-f(x)}{h} \\ &= \limto{h}{0} \frac{0}{h} \\ &= \limto{h}{0} 0 \\ &= 0 \end{align*} \]

  2. Untersuche die Funktion \(f: \R\to\R ,\; f(x) = cx\) \[ \begin{align*} f'(x) &= \limto{h}{0} \frac{f(x+h)-f(x)}{h} \\ &= \limto{h}{0} \frac{c(x+h)-cx}{h} \\ &= \limto{h}{0} \frac{ch}{h} \\ &= \limto{h}{0}c \\ &= c \end{align*} \]

  3. Untersuche die Funktion \(f:\R\to\R ,\; f(x) = x^2\) \[ \begin{align*} f'(x) &= \limto{h}{0} \frac{f(x+h)-f(x)}{h} \\ &= \limto{h}{0} \frac{(x+h)^2 - x^2}{h} \\ &= \limto{h}{0} \frac{2xh + h^2}{h} \\ &= \limto{h}{0} (2x+h) \\ &= 2x \end{align*} \]

  4. Untersuche die Funktion \(f: \R\setminus\set{0}\to\R ,\; f(x) = \frac{1}{x}\) \[ \begin{align*} f'(x) &= \limto{h}{0} \frac{f(x+h)-f(x)}{h} \\ &= \limto{h}{0} \left( \frac{1}{h} \cdot \left(\frac{1}{x+h} - \frac{1}{x}\right)\right) \\ &= \limto{h}{0} \frac{x-(x+h)}{hx(x+h)} \\ &= \limto{h}{0} \frac{-1}{x(x+h)} \\ &= -\frac{1}{x^2} \end{align*} \]

  5. Untersuche die Funktion \(f:\R\to\R ,\; f(x) = \exp(x)\) \[ \begin{align*} f'(x) &= \limto{h}{0} \frac{\exp(x+h)-\exp(x)}{h} \\ &= \limto{h}{0} \frac{\exp(x) \cdot (\exp(h)-1)}{h} \\ &= \exp(x) \cdot \limto{h}{0} \frac{\exp(h)-1}{h} \\ &= \exp(x) \cdot 1 \\ &= \exp(x) \end{align*} \] Die vorletzte Umformung folgt aus auto(g). Die Ableitung kann analog für die komplexe Exponentialfunktion bestimmt werden, so dass auch gilt \(\exp'(z) = \exp(z) \; \forall z \in \C\).

Differenzierbarkeit stellt eine stärkere Forderung an eine Funktion dar als die Stetigkeit, denn aus Differenzierbarkeit folgt Stetigkeit, wie der folgende Satz zeigt.

Wenn eine Funktion \(f: A \to \R\) in \(a \in A\) differenzierbar ist, so ist sie in \(a\) auch stetig.

Beweis

Sei \((x_n)\) eine beliebige Folge mit \(\liminf{n} x_n = a\) und \(x_n \neq a \; \forall n \in \N\). Es gilt \[\liminf{n}(x_n - a) = 0.\]

Da \(f\) in \(a\) differenzierbar ist, existiert außerdem der Grenzwert \[\liminf{n} \frac{f(x_n)-f(a)}{x_n-a} = f'(a) .\]

Nach auto dürfen wir beide Grenzwerte multiplizieren und den Limes vor das Produkt ziehen: \[ \begin{align*} 0 &= 0 \cdot f'(a)\\ &= \left( \liminf{n} (x_n-a) \right) \left(\liminf{n} \frac{f(x_n)-f(a)}{x_n-a} \right)\\ &= \liminf{n} \left( (x_n-a) \frac{f(x_n)-f(a)}{x_n-a} \right) \\ &= \liminf{n} f(x_n) - f(a)\\[0.5em] \end{align*} \] Daraus folgt \(\liminf{n} f(x_n) = f(a)\), und damit ist \(f(x)\) in \(a\) stetig.

Die Umkehrung von auto gilt nicht, wie das folgende Beispiel zeigt.

Die Funktion \(f(x) = \abs{x}\) ist stetig in jedem \(a \in \R\), da \(\limto{x}{a} \abs{x} = \abs{a}\) (wurde auf Übungsblatt 6 gezeigt).

Betrachten wir allerdings die Folge \(x_n = (-1)^n/n\), so gilt \(\lim\limits_{n \to \infty}x_n = 0\), aber der Grenzwert \[ \limto{x}{0} \frac{\abs{x}-\abs{0}}{x-0} \;=\; \liminf{n} \frac{\abs{x_n}}{x} \;=\; \liminf{n} \frac{\frac{1}{n}}{(-1)^n\frac{1}{n}} \;=\; (-1)^n \] existiert nicht. Damit ist \(\abs{x}\) im Punkt \(0\) nicht differenzierbar.

Für Funktionen, die aus zwei Teilstücken bestehen, eignet sich analog zu auto der folgende Satz, bei dem wir die Differenzierbarkeit auf rechts- und linksseitige Grenzwerte zurückführen.

Eine Funktion \(f: [a,b] \to \R\) ist genau dann für ein \(c \in (a,b)\) differenzierbar, wenn die links- und rechtsseitigen Grenzwerte \[ f_-'(c) = \llimto{x}{c} \frac{f(x) - f(c)}{x - c} \quad\text{und}\quad f_+'(c) = \rlimto{x}{c} \frac{f(x) - f(c)}{x - c} \] existieren und übereinstimmen. In diesem Fall gilt \[ f'(c) \;=\; f_-'(c) \;=\; f_+'(c) . \]

Beweis

Beweis in zwei Richtungen.

\(\Rightarrow\)-Richtung:

Wenn \(f\) differenzierbar in \(c\) ist, dann gilt für jede Folge \((x_n)\), die gegen \(c\) konvergiert \[ \liminf{n} \frac{f(x_n) - f(c)}{x_n - c} = f'(c). \] Insbesondere gilt dies auch für Folgen mit \(x_n > c \; \forall n \in \N\) und für Folgen mit \(x_n < c \; \forall n \in \N\), also \[ \llimto{x}{c} \frac{f(x)-f(c)}{x-c} = f'(c) = \rlimto{x}{c} \frac{f(x)-f(c)}{x-c}. \]

\(\Leftarrow\)-Richtung:

Die rechts- und linksseitigen Grenzwerte existieren und stimmen überein. Sei \((x_n)\) eine beliebige Folge mit \(x_n \neq c \; \forall n \in \N\), die gegen \(c\) konvergiert. Wir müssen nun zeigen, dass der Differenzenquotient für die Folge \((x_n)\) auch gegen den links- und rechtsseitigen Grenzwert konvergiert.

Wir teilen dazu die Folgenglieder von \((x_n)\) auf die zwei Mengen \(A = \set{x_n \mid x_n > c}\) und \(B = \set{x_n \mid x_n < c}\) auf. Wenn \(A\) bzw. \(B\) nur endlich viele Folgenglieder enthält, setzen wir \(n_a\) bzw. \(n_b\) auf den höchsten Folgenindex, der in \(A\) bzw. \(B\) enthalten ist. Anderenfalls bilden die Elemente von \(A\) bzw. \(B\) eine Teilfolge \((a_n)\) bzw. \((b_n)\) von \((x_n)\), die nach auto ebenfalls gegen \(c\) konvergiert, und es gilt \(a_n > c\) bzw. \(b_n < c\).

Da der rechtssseitige Grenzwert existiert, gibt es für jedes \(\eps > 0\) ein \(n_a \in \N\), sodass für alle \(n \geq n_a\) gilt \[ \abs{\frac{f(a_n) - f(c)}{a_n - c} - f_+'(c)} < \eps. \]

Da der linksseitige Grenzwert existiert, gibt es für jedes \(\eps > 0\) ein \(n_b \in \N\), sodass für alle \(n \geq n_b\) gilt \[ \abs{\frac{f(b_n) - f(c)}{b_n - c} - f_-'(c)} < \eps. \]

Da die beiden Grenzwerte übereinstimmen, können wir für ein beliebiges \(\eps > 0\) ein \(n_0 = \max\set{n_a,n_b}\) wählen, und es gilt für alle \(n \geq n_0\) \[ \abs{\frac{f(x_n)-f(c)}{x_n-c} - f_-'(c)} = \abs{\frac{f(x_n)-f(c)}{x_n-c} - f_+'(c)} < \eps. \]

Da dies für beliebige Folgen \((x_n)\) gilt, folgt \[ f'(c) = \limto{x}{c} \frac{f(x)-f(c)}{x-c} = f_+'(c) = f_-'(c). \]

Demo: Links- und rechtsseitiger Grenzwert des Differenzenquotienten

In dieser Demo können Sie den links- und rechtsseitigen Grenzwert des Differenzenquotienten visualisieren, indem Sie die Offsets \(h_l\) und \(h_r\) verändern. Probieren Sie dies auch mal mit nicht-differenzierbaren Funktionen aus, zum Beispiel \(\mathrm{abs}(\sin(x))\).

Früher dachte man, dass die nicht differenzierbaren Stellen einer Funktion immer nur einzelne Punkte betreffen können, eine stetige Funktion aber dazwischen immer stückweise differenzierbar ist. Einen Gegenbeweis liefern die sogenannten Weierstraß-Funktionen, die in jedem Punkt stetig, aber in keinem Punkt differenzierbar sind. Ein Beipiel wäre die Funktion \[ f(x) = \sum^\infty_\limits{k = 0}{a^k \cos(b^k\pi x)} \] mit \(0 < a < 1\) und \(ab \geq 1\). Graphisch haben solche Funktionen eine fraktale Struktur. Wenn wir also näher an den Graphen heranzoomen, zeigt sich wieder der gleiche Verlauf der Funktion, wie auf einer größeren Skala, wie das folgende Bild zeigt:

../images/WeierstrassFunction.svg
Bild von Eeyore22

Zur Berechnung der Ableitung einer Funktion ist die auto nur in einfachen Fällen praktikabel. Für komplexere Funktionen kann die damit verbundene Grenzwertberechnung schnell sehr aufwendig werden. Daher leiten wir nun ein paar Ableitungsregeln her, mit denen wir viele Ableitungen auf schon bekannte elementare Fälle zurückführen können.

Seien \(f,g: A \to \R\) in \(a \in A\) differenzierbar und \(c \in \R\). Dann sind auch die Funktionen \(f+g\), \(c \cdot f\) und \(f \cdot g\) in \(a\) differenzierbar und es gelten folgende Rechenregeln:

  1. Linearität:

    \[ \begin{align*} (f+g)'(a) &= f'(a) + g'(a)\\ (c \cdot f)'(a) &= c \cdot f' (a) \end{align*} \]

  2. Produktregel:

    \[(f \cdot g)'(a) = f'(a) \cdot g(a) + f(a) \cdot g'(a)\]

Ist außerdem \(g(x) \neq 0\) für alle \(x \in A\), so ist auch die Funktion \(\frac{f}{g}\) differenzierbar, und es gilt:

  1. Quotientenregel:

    \[\left(\frac{f}{g}\right)'(a)= \frac{f'(a) \cdot g(a) - f(a) \cdot g'(a)}{g(a)^2}\]

Beweis
  1. Folgt direkt aus der Definition des Differenzenquotienten und den Rechenregeln für Grenzwerte.

  2. Es gilt \[ \begin{align*} (f\cdot g)'(a) &= \limto{h}{0} \frac{f(a+h)g(a+h) - f(a)g(a)}{h} \\ &= \limto{h}{0} \left( \frac{1}{h} \cdot \Big[ f(a+h) \left( g(a+h)-g(a) \right) + \left( f(a+h)-f(a) \right) \cdot g(a) \Big] \right) \\ &= \limto{h}{0} \left( f(a+h) \frac{g(a+h)-g(a)}{h} \right) + \limto{h}{0} \left( \frac{f(a+h)-f(a)}{h} g(a) \right) \\ &= f(a) \cdot g'(a) + f'(a)\cdot g(a) \end{align*} \]

  3. Wir beweisen zuerst den Spezialfall \(f(x)=1\). \[ \begin{align*} \left(\frac{1}{g}\right)'(a) &= \limto{h}{0} \left( \frac{1}{h} \left( \frac{1}{g(a+h)} - \frac{1}{g(a)} \right) \right) \\ &= \limto{h}{0} \left( \frac{1}{g(a+h)g(a)} \left( \frac{g(a)-g(a+h)}{h} \right) \right)\\ &= -\frac{g'(a)}{g(a)^2} . \end{align*} \]

    Allgemein gilt dann \[ \begin{align*} \left( \frac{f}{g} \right)'(a) &= \left( f\frac{1}{g} \right)'(a) \\ &\stackrel{\text{nach (b)}}{=} f'(a)\frac{1}{g(a)}+f(a)\frac{-g'(a)}{g(a)^2} \\ &= \frac{f'(a) \cdot g(a) - f(a) \cdot g'(a)}{g(a)^2} \end{align*} \]

  1. \(f_n(x) = x^n\) für \(n\in\N\) ist differenzierbar und hat die Ableitung \(f'_n(x) = nx^{n-1}\).

    Beweis per vollständiger Induktion über \(n\):

    Induktionsanfang: Für \(n=1\) und \(n=2\) wurde die Behauptung im auto gezeigt. Damit ist der Induktionsanfang bewiesen.

    Induktionsvoraussetzung: Für ein beliebiges \(n \geq 2\) gelte \(f'_{n-1}(x) = (n-1)x^{n-2}\).

    Induktionsschritt \((n-1) \to n\): \[ \begin{align*} f_n(x) &= f_1(x)f_{n-1}(x)\\[0.5em] f'_n(x) &= f'_1(x)f_{n-1}(x)+f_1(x)f'_{n-1}(x) \\ &= x^{n-1}+x(n-1)x^{n-2} \\ &= nx^{n-1} \end{align*} \] Damit gilt die Behauptung für alle \(n \in \N\).

  2. Ein Polynom \(f(x) = \sum\limits_{k=0}^n a_k x^k\) mit \(n \in \N_0\) und \(a_k\in\R\) ist differenzierbar in \(x\in\R\) und es gilt: \[ f'(x) = \begin{cases} \sum_{k=1}^n k \, a_k \, x^{k-1} & \text{ für } n \geq 1,\\ 0 & \text{ für } n=0. \end{cases} \] Der Beweis folgt aus dem ersten Beispiel und der Linearität.

  3. Die Funktion \(f(x) = \frac{1}{x^n}\) mit \(n\in\N\) ist differenzierbar in \(x\in\R\setminus\set{0}\) und es gilt nach Quotientenregel: \[ f'(x) = \frac{-(nx^{n-1})}{(x^n)^2} = -nx^{-n-1} . \]

Die folgenden beiden Sätze führen Regeln zur Bestimmung der Ableitung von Umkehrfunktionen und verketteten Funktionen ein.

Sei \(I \subset\R\) ein Intervall, das aus mehr als einem Punkt besteht, \(f:I\to\R\) eine stetige streng monotone Funktion, und \(g=f^{-1}:J\to\R\) mit \(J=f(I)\) die Umkehrfunktion von \(f\).

Wenn \(f\) in \(a \in I\) differenzierbar ist und es gilt \(f'(a)\neq 0\), dann ist \(g\) in \(b=f(a)\) differenzierbar und es gilt: \[ g'(b) \;=\; \frac{1}{f'(a)} \;=\; \frac{1}{f'(g(b))} . \]

Beweis

Sei \(b_n\in J\setminus \set{b}\) eine Folge mit \(\lim\limits_{n\to\infty}b_n=b\). Wir setzen \(a_n=g(b_n)\). \(a_n\) existiert, da \(b_n\in f(I)\).

Da \(g\) stetig ist (siehe auto), ist \(\lim\limits_{n\to\infty}a_n=a\) und da \(g:J\to I\) bijektiv ist, ist \(a_n\neq a\) für \(b_n\neq b.\) Es gilt \[ \liminf{n} \frac{g(b_n)-g(b)}{b_n-b} \;=\; \liminf{n} \frac{a_n-a}{f(a_n)-f(a)} \;=\; \frac{1}{f'(a)} . \] Der Grenzwert existiert, da die Grenzwerte im Zähler und Nenner existieren.

  1. Ableitung des Logarithmus \(\ln : \R_{>0} \to \R\):

    \(\ln(x)\) ist die Umkehrfunktion von \(\exp(x)\). Damit gilt nach auto mit \(f(x) = \exp(x)\) und \(g(x) = \ln(x)\):

    \[\ln'(x) = \frac{1}{\exp'(\ln(x))} = \frac{1}{\exp(\ln(x))} = \frac{1}{x} .\]

  2. Ableitung der Wurzelfunktion \(\sqrt{x} : \R_{>0} \to \R_{>0}\):

    \(g(x) := \sqrt{x}\) ist die Umkehrfunktion von \(f(x) := x^2\). Es gilt \(f'(x) = 2x\) und für \(x > 0\) gilt \(f'(x) > 0\). Damit folgt nach auto:

    \[g'(x) = \frac{1}{f'(g(x))} = \frac{1}{2g(x)} = \frac{1}{2\sqrt{x}} .\]

    Achtung: \(g(x)=\sqrt{x}\) wäre für \(x = 0\) nicht differenzierbar.

Seien \(f: A\subseteq\R \to \R\) und \(g: B\subseteq\R \to \R\) Funktionen. Sei \(f\) in \(a \in A\) differenzierbar und \(g\) in \(b = f(a)\) differenzierbar. Dann ist die Komposition (Verkettung) der beiden Funktionen \(g \circ f: A \to \R\) in \(a\) differenzierbar und es gilt \[\left( g \circ f \right)'(a) \;=\; g'\left(f(a)\right) \cdot f'(a) .\]

Beweis

Definiere die Funktion \(g^*: B \to \R\) durch \[ g^*(y) \mathrel{:=} \begin{cases} \frac{g(y)-g(b)}{y-b}, & \text{ für } y \neq b\\ g'(b), & \text{ für } y = b \end{cases} . \]

Da \(g\) in \(b\) differenzierbar ist, gilt \[ \limto{y}{b} g^*(y) = g^*(b) = g'(b) \] sowie \[ g(y) - g(b) = g^*(y) \cdot (y-b) . \] Daraus folgt \[ \begin{align*} \left(g \circ f\right)'(a) &= \limto{x}{a} \frac{g(f(x)) - g(f(a))}{x-a} \\ &= \limto{x}{a} \frac{g^*(f(x)) \cdot (f(x) - f(a))}{x-a} \\ &= \limto{x}{a} g^*(f(x)) \cdot \limto{x}{a} \frac{f(x)-f(a)}{x-a} \\ &= g'(f(a)) \cdot f'(a) \end{align*} \]

  1. Ableitung von \(\sqrt{x^2+2}\): \[ \begin{align*} f(x) &= x^2+2, & f'(x) &= 2x, \\ g(y) &= \sqrt{y}, & g'(y) &= \frac{1}{2\sqrt{y}}, \\[0.5em] h(x) &= g(f(x)), & h'(x) &= \frac{1}{2\sqrt{x^2+2}} \cdot 2x = \frac{x}{\sqrt{x^2+2}} . \end{align*} \]

  2. Ableitung von \(e^{cx}\) für ein \(c \in \R\): \[ \begin{align*} f(x) &= cx, & f'(x) &= c \\ g(y) &= e^y, & g'(y) &= e^y\\[0.5em] h(x) &= g(f(x)), & h'(x) &= e^{cx} \cdot c = c e^{cx} . \end{align*} \] Der Beweis funktioniert analog für die komplexe Exponentialfunktion, also mit \(x, c \in \C\).

Mit dem letzten Beispiel ergeben sich insbesondere die Ableitungen der trigonometrischen Funktionen.

Nach auto gilt \((\exp(cx))' = c \exp(cx)\). Damit folgt:

\[ \begin{align*} (\cos(x))' &= \frac{(\exp(\i x))' + (\exp(-\i x))'}{2} \\ &= \frac{\i \exp(\i x) - \i\exp(-\i x)}{2} \\ &= \frac{\i \exp(\i x) - \i\exp(-\i x)}{2} \cdot \frac{\i}{\i} \\ &= \frac{-\exp(\i x) + \exp(-\i x)}{2\i} \\ &= -\sin(x) \\[1em] (\sin(x))' &= \frac{(\exp(\i x))' - (\exp(-\i x))'}{2\i} \\ &= \frac{\i\exp(\i x) + \i\exp(-\i x)}{2\i} \\ &= \frac{\exp(\i x) + \exp(-\i x)}{2} \\ &= \cos(x) \end{align*} \]

Die Idee der Ableitung einer Funktion kann rekursiv angewendet werden, indem man die Ableitung der Ableitung bildet, sofern diese existiert. Dies führt zu folgender Definition höherer Ableitungen.

Für eine Funktion \(f: A \subseteq \R \to \R\) und \(k \in \N_0\) ist die \(k\)-te Ableitung (oder auch die Ableitung \(k\)-ter Ordnung) \(f^{(k)}(a)\) von \(f\) in \(a \in A\) rekursiv definiert als \[ \begin{align*} f^{(0)}(a) \;&\mathrel{:=}\; f(a) ,\\ f^{(k+1)}(a) \;&\mathrel{:=}\; \left( f^{(k)}(a) \right)' , \;\text{falls die Ableitung von } f^{(k)}(a) \text{ in } a \in A \text{ existiert.} \end{align*} \]

Wenn für eine Funktion \(f\) die \(k\)-te Ableitung für alle \(a \in A\) existiert, ist \(f\) \(k\)-mal differenzierbar.

Wenn die \(k\)-te Ableitung zusätzlich stetig ist, ist \(f\) \(k\)-mal stetig differenzierbar. Dann schreibt man auch: \(f\) ist \(C^k\)-stetig.

Man schreibt auch \(\displaystyle \frac{d^k f(a)}{dx^k}\) für die \(k\)-te Ableitung von \(f\) im Punkt \(a\).

  1. Die Funktion \(f(x) = e^{cx}\) ist unendlich oft stetig differenzierbar. Also ist sie \(C^\infty\)-stetig und es gilt: \[f^{(k)}(x) = c^k e^{cx} .\]

  2. Die Funktion \(f(x) = x^n\) für \(n \in \N\) ist unendlich oft stetig differenzierbar. Also ist sie \(C^\infty\)-stetig und es gilt: \[ f^{(k)}(x) \;=\; \begin{cases} \frac{n!}{(n-k)!} x^{(n-k)}, & \text{ für } 0 \leq k \leq n, \\ 0, & \text{ für } k > n. \end{cases} \]

  3. Die Funktion \(f(x) = \abs{x}\) ist stetig, aber nicht differenzierbar, also \(C^0\)-stetig.

  4. Die Funktion \(f(x) = \abs{x}^3\) ist zweimal stetig-differenzierbar, also \(C^2\)-stetig
    (Beweis und Ableitungen zur Übung).

  5. Die Funktion \[ f(x) = \begin{cases} 0 & \text{ für } x = 0,\\ x^2 \sin\left(\frac{1}{x}\right) & \text{ sonst.} \end{cases} \] ist stetig und differenzierbar, aber die erste Ableitung ist nicht stetig in \(x = 0\). Also ist \(f\) nur \(C^0\)-stetig (Beweis und Ableitung zur Übung).

Lokale Extrema

Wir wollen nun mit Hilfe der Ableitungen von Funktionen deren Eigenschaften analysieren. Dazu wird eine Reihe von Sätzen hergeleitet, die das Verhalten von Funktionen auf Intervallen beschreiben. Zuerst definieren wir den Begriff des lokalen Extremums.

Eine Funktion \(f:(a,b) \to \R\) nimmt in \(x \in (a,b)\) ein lokales Maximum (bzw. lokales Minimum) \(f(x)\) an, wenn ein \(\eps>0\) existiert, sodass \(f(x) \geq f(y)\) (bzw. \(f(x) \leq f(y)\)) für alle \(y\) mit \(\abs{x-y} < \eps\) gilt.

Extremum ist der Oberbegriff für Minimum und Maximum. Wir nennen diese Extrema lokal, weil z.B. ein lokales Maximum nur in einer gewissen Umgebung das Maximum aller in dieser Umgebung liegenden Funktionswerte ist. An einer anderen Stelle könnte die Funktion noch ein weiteres, größeres Maximum besitzen, oder sogar nach oben unbeschränkt sein. Wir werden Bedingungen für lokale Extrema herleiten, da diese auf Basis der Ableitung, die das Verhalten einer Funktion in der Umgebung eines Punktes beschreibt, bestimmt werden können. Das Maximum/Minimum aller Funktionswerte einer Funktion nennt man globales Minimum/Maximum. Der \(x\)-Wert, in dem das Extremum angenommen wird, bezeichnet man auch als Extremstelle. Die Bestimmung globaler Extrema ist nur in bestimmten Funktionsklassen möglich und geht über den Inhalt dieser Vorlesung hinaus.

Genau genommen ist für konstante Funktionen \(f(x) = c\), \(c \in \R\), jeder Punkt ein lokales Minimum und ein lokales Maximum. In manchen Lehrbüchern wird daher zusätzlich der Begriff des strengen lokalen Extremums eingeführt, bei dem man in der obigen Definition \(\leq\) durch \(<\) bzw. \(\geq\) durch \(>\) ersetzt. Wir werden in den Beweisen darauf hinweisen, aber ansonsten immer nur von lokalen Extrema sprechen.

Wenn die Funktion \(f: (a,b) \to \R\) im Punkt \(x \in (a,b)\) ein lokales Extremum annimmt und in \(x\) differenzierbar ist, dann ist \(f'(x)=0\).

Beweis

Wenn die Funktion \(f\) in \(x\) ein lokales Maximum annimmt, dann existiert \(\eps > 0\), sodass \(f(y) \leq f(x)\) für alle \(y \in (x-\eps, x+\eps)\).

Für \(x < y\) gilt dann \[\frac{f(y)-f(x)}{y-x} \leq 0\] und damit \[f'(x) = \rlimto{y}{x} \frac{f(y)-f(x)}{y-x} \leq 0 .\]

Für \(x > y\) gilt analog \[\frac{f(y)-f(x)}{y-x} \geq 0\] und damit \[f'(x) = \llimto{y}{x} \frac{f(y)-f(x)}{y-x} \geq 0 .\]

Aus \(0 \leq f'(x) \leq 0\) folgt insgesamt \(f'(x) = 0\).

Der Beweis für lokale Minima ist analog zu führen.

Die Umkehrung des letzten Satzes gilt nicht. An einer Stelle \(c\) mit \(f'(c) = 0\) muss also nicht zwangsweise ein lokales Extremum liegen (Mathematiker*innen sagen, die Bedingung ist nicht hinreichend). Die folgende Abbildung zeigt die graphische Interpretation des Satzes: An einem lokalen Extremum (in der Abbildung bei \(c_1\)) hat die Tangente eine Steigung von \(0\), verläuft also parallel zur \(x\)-Achse. Allerdings erfüllt die gezeigte Funktion auch an einer anderen Stelle \(c_2\) die Bedingung \(f'(c_2) = 0\), an der jedoch kein Extremum vorliegt.

skript-page-code-7e51eca3.tex.svg

Im letzten Satz ist zu beachten, dass wir die Funktion \(f\) über dem offenen Intervall \((a,b)\) untersucht haben. Wenn wir \(f: [a,b] \to \R\) untersuchen und ein Minimum oder Maximum in einem der beiden Randpunkte angenommen wird, so ist dort die erste Ableitung nicht notwendigerweise gleich \(0\), wie man sich leicht überlegen kann.

Die nun folgenden Sätze beschäftigen sich mit dem Verhalten von Funktionen in Intervallen, wenn Informationen über die Randpunkte vorliegen. Wir betrachten dabei oft Funktionen, die auf dem abgeschlossenen Intervall \([a,b]\) definiert sind und im offenen Intervall \((a,b)\) differenzierbar sind. Damit ist \(f'(x)\) nur für \(x \in (a,b)\) definiert.

Sei \(a < b\) und \(f:[a,b] \to \R\) eine stetige Funktion mit \(f(a) = f(b)\), die in \((a,b)\) differenzierbar ist. Dann gilt: \[\exists c \in (a,b) \gilt f'(c) = 0\]

Beweis

Nach auto nimmt \(f\) als stetige Funktion auf dem kompakten Intervall \([a,b]\) ihr Minimum und Maximum an.

Falls \(f\) konstant ist, gilt \(f'(c)=0\) für alle \(c \in (a,b)\).

Ist \(f\) nicht konstant, so gibt es ein \(x \in (a,b)\) mit \(f(x) < f(a)\) oder \(f(x) > f(a)\). Damit kann entweder das Minimum oder das Maximum nicht an den Intervallgrenzen liegen. Es gibt also ein Extremum in einem Punkt \(c \in (a,b)\), und nach der notwendigen Bedingung für Extrema gilt dort \(f'(c) = 0\).

Sei \(a < b\) und \(f: [a,b] \to \R\) eine stetige Funktion, die in \((a,b)\) differenzierbar ist. Dann gilt: \[ \exists c \in (a,b) \gilt \frac{f(b)-f(a)}{b-a} = f'(c)\]

Beweis

Wir definieren eine Funktion \(g: [a,b] \to \R\), mit \[g(x)=f(x)-\frac{f(b)-f(a)}{b-a}(x-a).\]

Die Funktion \(g\) ist stetig in \([a,b]\), differenzierbar in \((a,b)\) und \(g(b)=f(a)=g(a)\).

Dann existiert nach dem Satz von Rolle ein \(c \in (a,b)\) mit \(g'(c)=0\). Aus \[g'(c) = f'(c)-\frac{f(b)-f(a)}{b-a} = 0\] folgt die Behauptung.

Beide Sätze kann man geometrisch interpretieren. Die Steigung der Sekante durch die Punkte \((a,f(a))\) und \((b,f(b))\) entspricht der Steigung der Tangente im Punkt \((c,f(c))\), wie die folgende Demo zeigt.

Demo: Erster Mittelwertsatz der Differentialrechnung

In der folgenden Demo können Sie mit dem Mittelwertsatz der Differentialrechnung experimentieren. Sie können die beiden Intervallgrenzen \(a\) und \(b\) verschieben. Es wird jeweils die Sekantensteigung zwischen \(A=(a,f(a))\) und \(B=(b,f(b))\) angezeigt sowie eine Stelle \(\xi \in (a,b)\), bei der die Tangentensteigung mit der Sekantensteigung übereinstimmt. Wenn \(f(a) = f(b)\) gilt, dann erhalten wir als Spezialfall den Satz von Rolle. Beide Sätze garantieren nur mindestens eine solche Stelle \(\xi\). Es kann aber auch mehrere geben.

Mit Hilfe der Ableitungen lassen sich auch Aussagen über die Monotonie von Funktionen treffen.

Sei \(f:[a,b] \to \R\) stetig und in \((a,b)\) differenzierbar. Dann gilt:

  1. \(\forall x \in (a,b) \gilt f'(x) \geq 0 \;\Leftrightarrow\; f\) monoton wachsend in \([a,b]\)

  2. \(\forall x \in (a,b) \gilt f'(x) > 0 \;\Rightarrow\; f\) streng monoton wachsend in \([a,b]\)

  3. \(\forall x \in (a,b) \gilt f'(x) \leq 0 \;\Leftrightarrow\; f\) monoton fallend in \([a,b]\)

  4. \(\forall x \in (a,b) \gilt f'(x) < 0 \;\Rightarrow\; f\) streng monoton fallend in \([a,b]\)

Beweis
  1. \(\Rightarrow\)-Richtung:
    Wähle beliebige \(c,d \in [a,b]\) mit \(c < d\). Der Mittelwertsatz (auto) angewendet auf das Intervall \([c,d]\) liefert ein \(y \in (c,d)\) mit \(f'(y) = \frac{f(d)-f(c)}{d-c}\). Da \(f'(x) \geq 0\) für alle \(x \in (a,b)\), ist auch f’(y) $, daher ist auch \(\frac{f(d)-f(c)}{d-c} \geq 0\). Da \(c<d\) muss auch \(f(c)<f(d)\) sein. Also ist die Funktion monoton wachsend.

    \(\Leftarrow\)-Richtung:
    Nehmen wir nun an, dass \(f\) monoton wachsend in \([a,b]\) ist. Dann ist für alle \(x,y \in (a,b)\) mit \(x \ne y\) der Differenzenquotient \(\frac{f(x)-f(y)}{x-y} \geq 0\). Daraus folgt durch den Grenzübergang die Behauptung: \[\limto{x}{y} \frac{f(x)-f(y)}{x-y} = f'(y) \geq 0\]

Die Beweise für (b)(d) sind analog zu führen, wobei zu beachten ist, dass in den Fällen (b) und (d) nur eine Richtung bewiesen werden muss und kann.

Es sollte beachtet werden, dass in dem vorherigen Satz nur die beiden Aussagen (a) und (c) genau-dann-wenn-Beziehungen sind, d.h. dass die Folgerungen in beide Richtungen gelten. Für die beiden Punkte (b) und (d) gilt nur die Folgerung von links nach rechts. Dies kann man sich leicht anhand der Funktion \(f(x) = x^3\) überlegen: Trotz \(f'(0)=0\) ist die Funktion streng monoton wachsend.

Aus den vorherigen Sätzen können wir nun eine hinreichende Bedingung für strenge lokale Extrema herleiten.

Sei \(f: (a,b) \to \R\) eine differenzierbare Funktion, die im Punkt \(x \in (a,b)\) zweimal differenzierbar ist.

Falls \(f'(x) = 0\) und \(f''(x)> 0\) (bzw. \(f''(x) < 0\)), dann nimmt \(f\) in \(x\) ein lokales Minimum (bzw. Maximum) an.

Beweis

Wir beweisen den Satz für lokale Minima. Sei also \(f''(x) > 0\).

Da \(f''(x) = \limto{y}{x} \frac{f'(y)-f'(x)}{y-x} > 0\) ist, existiert ein \(\eps > 0\), sodass \(\frac{f'(y)-f'(x)}{y-x} > 0\) für alle \(y \in (x-\eps, x+\eps).\)

Da außerdem \(f'(x)=0\) folgt \(f'(y) < 0\) für \(y \in (x-\eps, x)\) und \(f'(y) > 0\) für \(y \in (x, x+\eps).\)

Nach auto ist \(f\) damit streng monoton fallend in \((x-\eps,x)\) und streng monoton wachsend in \((x, x+\eps)\). Damit muss \(f\) in \(x\) ein (sogar strenges) lokales Minimum besitzen.

Der Beweis für lokale Maxima ist analog zu führen.

Die Bedingungen sind nur hinreichend, aber nicht notwendig: Wenn die Bedingung gilt, gibt es ein lokales Extremum, aber nicht für jedes lokale Extremum gilt diese Bedingung. Dies kann man an der Funktion \(f(x) = x^4\) erkennen: Diese besitzt in \(x=0\) ein lokales Minimum, trotzdem ist \(f''(0) = 0\). Für solche Fälle, in denen \(f'(x) = f''(x) = 0\), aber \(f^{(n)}(x) \neq 0\) für \(n > 2\) gilt, kann der folgende Satz genutzt werden, den wir hier ohne Beweis angeben, da der Beweis über den Vorlesungsinhalt hinaus geht.

Sei \(f: (a,b) \to \R\) eine differenzierbare Funktion, die im Punkt \(x \in (a,b)\) \(n+1\)-mal differenzierbar ist. Falls \[ f'(x) = f^{(2)}(x) = \ldots = f^{(n)}(x) = 0 \quad\text{und}\quad f^{(n+1)}(x) \neq 0 , \] dann besitzt \(f\) in \(x\)

Da die erste Ableitung, wenn sie existiert, auch wieder eine Funktion ist, können wir fragen, wo die erste Ableitung (lokal) maximal oder minimal wird, also an welchem Punkt wir die (lokal) größte oder kleinste Steigung der ursprünglichen Funktion haben. Solche Punkte nennt man Wendepunkte. Wendepunkte kann man allerdings auch für nicht differenzierbare Funktionen definieren. Dafür führen wir zunächst den Begriff der Konvexität einer Funktion ein.

Eine Funktion \(f:(a,b) \to \R\) heißt konvex, wenn für alle \(x_1, x_2 \in (a,b)\) und alle \(\lambda \in (0,1)\) gilt \[ f(\lambda x_1 + (1 - \lambda) x_2) \leq \lambda f(x_1) + (1 - \lambda) f(x_2) . \] Die Funktion heißt konkav, wenn \(-f\) konvex ist.

Gilt in der obigen Bedingung sogar \(<\) anstelle von \(\leq\), so nennen wir \(f\) streng konvex (bzw \(-f\) streng konkav).

skript-page-code-006763ba.tex.svg

Die Abbildung zeigt den Graphen einer konvexen Funktion. Die Funktion hängt nach unten durch, d.h., die Funktionswerte liegen unterhalb der Verbindungsgeraden zwischen den Funktionswerten an den Intervallgrenzen. Man kann sich die Konvexität auch so vorstellen, dass jede Verbindungslinie zwischen zwei Punkten oberhalb der Funktion verläuft und den Graphen der Funktion nicht schneidet. Konvexe Funktionen haben einige sehr angenehme Eigenschaften: Zum Beispiel ist jedes lokale Minimum einer konvexen Funktion gleichzeitig das globale Minimum. Dies kann bei der Optimierung, d.h. dem Finden von globalen Extrema, ausgenutzt werden.

Der folgende Satz stellt den Zusammenhang zwischen Konvexität und zweiter Ableitung her.

Eine zweimal differenzierbare Funktion \(f: (a,b) \to \R\) ist genau dann konvex, wenn \(f''(x) \ge 0\) für alle \(x \in (a,b)\).

Beweis

\(\Leftarrow\)-Richtung:

Sei \(f''(x) \ge 0\) für alle \(x \in (a,b)\). Dann ist \(f'\) nach auto monoton wachsend. Sei \(x = \lambda x_1 + (1-\lambda) x_2\) für \(a < x_1 < x_2 < b\) und \(0 < \lambda < 1\), dann gilt offensichtlich \(x_1 < x < x_2\).

Nach Mittelwertsatz 1 existieren dann \(y_1 \in (x_1,x)\) und \(y_2 \in (x,x_2)\) mit \[ \frac{f(x)-f(x_1)}{x-x_1} = f'(y_1) \le f'(y_2) = \frac{f(x_2)-f(x)}{x_2-x} . \]

Da \(x - x_1 = (1 - \lambda)(x_2 - x_1)\) und \(x_2 - x = \lambda(x_2 - x_1)\) folgt \[ \frac{f(x) -f(x_1)}{1-\lambda} \le \frac{f(x_2)-f(x)}{\lambda} \quad\Rightarrow\quad f(x) \le \lambda f(x_1) + (1 - \lambda)f(x_2) . \] Damit ist die Funktion konvex.

\(\Rightarrow\)-Richtung:

Sei nun \(f\) konvex. Angenommen es gäbe ein \(x_0 \in (a,b)\) mit \(f''(x_0) < 0\). Sei \(c = f'(x_0)\) und \(g(x) = f(x) - c(x - x_0)\). \(g\) ist zweimal differenzierbar und \(g'(x_0) = 0\) sowie \(g''(x_0) = f''(x_0) < 0\). Damit besitzt \(g\) nach auto an der Stelle \(x_0\) ein (strenges) lokales Maximum.

Es gibt damit ein \(\eps > 0\), so dass \((x_0-\eps, x_0+\eps) \subset (a,b)\) und \(g(x_0-\eps) < g(x_0)\), \(g(x_0+\eps) < g(x_0)\). Aufgrund der Definition von \(g\) folgt damit auch \[ f(x_0) = g(x_0) > \frac{1}{2} \left( g(x_0-\eps) + g(x_0+\eps)\right ) = \frac{1}{2} \left( f(x_0-\eps) + f(x_0+\eps)\right ) . \] Wähle nun \(x_1 = x_0-\eps\), \(x_2 = x_0+\eps\) und \(\lambda = \frac{1}{2}\). Dann ist \(x_0 = \lambda x_1 + (1 - \lambda) x_2\) und \[ f\of{\lambda x_1 + (1-\lambda) x_2} > \lambda f\of{x_1} + (1-\lambda) f\of{x_2} . \] Dies steht im Widerspruch zur Konvexität von \(f\).

Konvexe Bereiche einer Funktion haben also eine positive zweite Ableitung. Man sagt auch, dass der Graph der Funktion hier linksgekrümmt ist, bzw. für konkave Bereiche rechtsgekrümmt ist. Ein Wendepunkt ist nun ein Wechselpunkt dieser Krümmungsrichtung.

Eine stetige Funktion \(f: (a,b) \to \R\) hat in \(x \in (a,b)\) einen Wendepunkt, wenn Intervalle \((\alpha,x)\) und \((x,\beta)\) existieren, für die eine der zwei folgenden Bedingungen gilt:

  1. \(f\) ist in \((\alpha,x)\) streng konvex und in \((x,\beta)\) streng konkav.
  2. \(f\) ist in \((\alpha,x)\) streng konkav und in \((x,\beta)\) streng konvex.

Zu beachten ist, dass die obige Definition nicht voraussetzt, dass \(f\) in \(x\) differenzierbar ist, oder überhaupt irgendwo differenzierbar ist.

Die Funktion \(f: \R \to \R\) mit \[ f = \begin{cases} \sqrt{x} & \text{ für } x \geq 0\\ -\sqrt{|x|} & \text{ für } x < 0 \end{cases} \] ist in \(x=0\) nicht differenzierbar, aber es gilt \(f''(x) > 0\) für \(x < 0\) und \(f''(x) < 0\) für \(x > 0\). Damit sind diese Bereiche nach auto streng konvex bzw. streng konkav (links- und rechtsgekrümmt), und bei \(x = 0\) hat die Funktion einen Wendepunkt.

In den meisten Fällen haben wir es aber mit beliebig oft stetig differenzierbaren Funktionen zu tun, und dann gilt, dass Wendepunkte der Funktion gleichzeitig Extrema der ersten Ableitung sind. Die Bedingungen aus auto und auto lassen sich also auf Wendepunkte übertragen. Diese geben wir hier nur zur Vollständigkeit ohne Beweis an:

Eine dreimal differenzierbare Funktion \(f: (a,b) \to \R\) besitzt einen Wendepunkt in \(x\) genau dann, wenn \(f'\) ein lokales Extremum in \(x\) besitzt. Damit folgt:

Auch hier kann man Funktionen finden, bei denen das hinreichende Kriterium verletzt ist, aber trotzdem ein Wendepunkt vorliegt, wie zum Beispiel \(f(x) = x^5\) bei \(x = 0\). In solchen Fällen kann man auto auf Wendepunkte übertragen.

Grenzwerte an Randbereichen

In diesem Kapitel verwenden wir erste Ableitungen, um Grenzwerte von Funktionen an Stellen zu berechnen, an denen die Funktion eigentlich nicht mehr definiert ist, nämlich an den Randbereichen des Definitionsbereiches, also an Parameterwerten, die nicht im Definitionsbereich, aber beliebig nahe am Definitionsbereich der Funktion liegen. Ein Beispiel wäre \(x = 0\) für die Funktion \(f(x) = 1/x\).

Oft streben Funktionen in Randbereichen immer größere (positive oder negative) Werte an. Analog zur bestimmten Divergenz bei Folgen definieren wir sogenannte uneigentliche Grenzwerte für Funktionen.

Sei \(f: A \to \R\) und \(a\) ein Häufungspunkt von \(A\). Falls für alle \(K \in \R\) ein \(\delta > 0\) existiert, sodass \(f(x) > K\) für \(\abs{x-a} < \delta\), so schreibt man \(\limto{x}{a} f(x) = \infty\).

Anstelle von \(\limto{x}{a} -f(x) = \infty\) schreibt man auch \(\limto{x}{a} f(x) = -\infty\).

Speziell interessieren wir uns für Funktionen, die auf offenen oder halboffenen Intervallen definiert sind und deren Grenzwerte wir an der halboffenen Grenze bestimmen wollen. Hier gibt es drei Möglichkeiten: Entweder die Funktion konvergiert gegen eine reelle Zahl \(c\), oder die Funktionswerte divergieren und werden betragsmäßig immer größer, streben also gegen \(\infty\) oder \(-\infty\), oder es gibt am Rand eine unbestimmte Divergenz (also analog zu Folgen wie \(a_n = (-1)^n\)).

Wir wissen bereits, dass wir (mit Hilfe von auto) den Grenzwert eines Quotienten \(f(x)/g(x)\) als \[ \limto{x}{a} \frac{f(x)}{g(x)} \;=\; \frac{\limto{x}{a} f(x)}{\limto{x}{a} g(x)} \] bestimmen können. Das ganze funktioniert allerdings nur dann, wenn die beiden Grenzwerte \(\limto{x}{a}f(x)\) und \(\limto{x}{a} g(x)\) existieren (und damit insbesondere reelle Zahlen \(c \neq \infty\) sind) und wenn zusätzlich \(\limto{x}{a} g(x) \neq 0\) ist. In den folgenden beiden Fällen ist das aber nicht mehr der Fall: \[ \limto{x}{0} \frac{\exp(x)-1}{\sin(x)} \quad\text{oder}\quad \liminf{x} \frac{x^2}{\exp(x)} \] Der erste Fall führt zu \(\frac{0}{0}\), der zweite zu \(\frac{\infty}{\infty}\), was beides nicht definiert ist. Beide Grenzwerte existieren aber dennoch, wir haben nur (noch) nicht die Mittel, um sie zu berechnen.

Meist ergeben sich solche Situationen an den Rändern des Definitionsbereiches, wo dann durch Null geteilt werden würde (z.B. \(x=0\) bei \(1/x\)) oder Funktionen gegen Unendlich gehen (z.B. \(x\to\infty\) bei \(\exp(x)\)). Dies muss aber nicht zwangsweise bedeuten, dass eine Funktion \(f(x)/g(x)\) am Rand des Definitionsbereiches divergiert. Falls der Nenner \(g(x)\) “gleich schnell” oder “schneller” als der Zähler \(f(x)\) gegen Null strebt, kann sich ein reeller Grenzwert ergeben (wie z.B. bei \(f(x) = x^2/x\)). Den Grenzwert können wir in solchen Fällen mithilfe der sogenannten Regel von L’Hospital bestimmen. Für deren Beweis benötigen wir zunächst eine Erweiterung des Mittelwertsatzes.

Seien \(f,g: [a,b] \to \R\) zwei Funktionen, die in \([a,b]\) stetig und in \((a,b)\) differenzierbar sind. Sei außerdem \(g'(x) \neq 0\) für alle \(x \in (a,b)\). Dann ist \(g(a) \neq g(b)\) und es existiert ein \(c \in (a,b)\) mit \[\frac{f(b)-f(a)}{g(b)-g(a)} \;=\; \frac{f'(c)}{g'(c)} .\]

Beweis

Wir beweisen zuerst \(g(a) \neq g(b)\): Wäre \(g(a) = g(b)\), so gäbe es nach dem Satz von Rolle ein \(c \in (a,b)\) mit \(g'(c) = 0\), was aber laut Voraussetzung ausgeschlossen ist.

Für die Hilfsfunktion \(h(x) = f(x) - \frac{f(b) - f(a)}{g(b) - g(a)} \, \left(g(x) - g(a)\right)\) gilt \(h(a) = h(b) = f(a)\). Damit existiert nach dem Satz von Rolle \(c \in (a,b)\) mit \(h'(c) = 0\) und somit gilt \(h'(c) = f'(c) - \frac{f(b) - f(a)}{g(b) - g(a)} \, g'(c) = 0\).

Wegen \(g'(c) \neq 0\) können wir daraus die Behauptung folgern: \[\frac{f(b)-f(a)}{g(b)-g(a)} = \frac{f'(c)}{g'(c)}.\]

Daraus folgt nun die Regel von L’Hospital (gesprochen “lopital”).

Seien \(f,g: (a,b) \to \R\) zwei differenzierbare Funktionen, und sei \(g(x) \neq 0\) und \(g'(x) \neq 0\) für alle \(x \in (a,b)\). Gilt einer der beiden Fälle

  1. \(\rlimto{x}{a} f(x) = \rlimto{x}{a} g(x) = 0\)
  2. \(\rlimto{x}{a} \abs{f(x)} = \rlimto{x}{a} \abs{g(x)} = \infty\),

und existiert der Grenzwert \(\rlimto{x}{a} \frac{f'(x)}{g'(x)}\) (eigentlich oder uneigentlich), dann existiert auch der Grenzwert \(\rlimto{x}{a} \frac{f(x)}{g(x)}\) (eigentlich oder uneigentlich) und es gilt

\[\rlimto{x}{a} \frac{f(x)}{g(x)} = \rlimto{x}{a} \frac{f'(x)}{g'(x)}.\]

Dies gilt analog für die rechte Intervallgrenze \(\llimto{x}{b} \frac{f(x)}{g(x)}\) sowie für \(a,b = \pm \infty.\)

Beweis

Wir beweisen nur Fall (a).

\(f\) und \(g\) sind auf \((a,b)\) differenzierbar und damit auch stetig (auto). Da der rechtsseitige Grenzwert für \(x \searrow a\) existiert und der Definitionsbereich nur aus Werten \(x > a\) besteht, können wir die Funktionen \(f\) und \(g\) durch das Setzen von \(f(a) := 0\) und \(g(a) := 0\) stetig auf \([a,b)\) erweitern.

Sei \((x_n)\) eine Folge, die von oben gegen \(a\) konvergiert, also \(x_n \in (a,b)\) und \(x_n \searrow a\). Für jedes \(x_n\) gibt es dann nach auto ein \(c_n \in (a,x_n)\) mit \[ \frac{f'(c_n)}{g'(c_n)} \;=\; \frac{f(x_n)-f(a)}{g(x_n)-g(a)} \;=\; \frac{f(x_n)-0}{g(x)-0} \;=\; \frac{f(x_n)}{g(x_n)} . \]

Sei \((c_n)\) die Folge der Werte, für die die obige Gleichung gilt. Da \((x_n) \searrow a\) und \(c_n \in (a, x_n)\), konvergiert auch \((c_n) \searrow a\). Somit folgt insgesamt \[ \liminf{n} \frac{f(x_n)}{g(x_n)} = \liminf{n} \frac{f'(c_n)}{g'(c_n)} = \limto{x}{a} \frac{f'(x)}{g'(x)} . \] Die letzte Umformung gilt, da der Grenzwert \(\rlimto{x}{a} \frac{f'(x)}{g'(x)}\) existiert und daher für jede Folge \(x_n \to a\) (oder \(c_n \to a\)) angenommen wird.

Die weiteren Fälle, also \(\llimto{x}{b}\) und \(a,b = \pm \infty\), beweist man analog.

Die Forderung nach der Existenz von \(\rlimto{x}{a} \frac{f'(x)}{g'(x)}\) im eigentlichen oder uneigentlichen Sinne bedeutet, dass der Grenzwert entweder eine reelle Zahl (eigentlicher Grenzwert) oder \(\pm \infty\) (uneigentlicher Grenzwert) sein muss. auto diskutiert einen Fall, wo der Grenzwert weder eigentlich noch uneigentlich existiert und der Satz daher nicht angewendet werden kann.

Da die Regel sowohl für rechts- als auch für linksseitige Grenzwerte identisch definiert ist, kann man sie auch allgemein für Grenzwerte \(x \to c\) anwenden, wenn die Funktionen auf beiden Seiten der betreffenden Stelle \(c\) definiert sind, wie z.B. \(\limto{x}{0} 1/x\).

Die Gültigkeit für die Regel von L’Hospital kann man sich für den Fall (a) auch vereinfacht folgendermaßen plausibel machen: Wenn die Funktionen \(f\) und \(g\) differenzierbar sind, können wir beide in einem sehr kleinen Bereich um \(a\) durch ihre jeweilige Tangente approximieren, also \[ f(x) \approx f'(a)x + n_f \qquad \quad g(x) \approx g'(a)x + n_g . \] Da beide Funktionen in \(x = a\) eine Nullstelle haben (da wir Fall (a) des Satzes betrachten), müssen auch die Tangenten bei \(x = a\) eine Nullstelle haben. Aus \(f'(x)a + n_f = 0\) folgt \(n_f = -f'(x)a\) und analog \(n_g = -g'(a)a.\) Insgesamt können wir die Funktionen also in der Nähe von \(a\) approximieren durch \[ \begin{align*} f(x) \approx f'(a)(x - a) \qquad \quad g(x) \approx g'(a)(x - a) . \end{align*} \] Für den Quotienten ergibt sich \[ \frac{f(x)}{g(x)} \approx \frac{f'(a)(x - a)}{g'(a)(x - a)} = \frac{f'(a)}{g'(a)} . \] Je näher wir \(x = a\) kommen, desto besser wird die Näherung, sodass beide Seiten im Grenzfall identisch sind.

Das dritte und vierte Beispiel zeigt, dass man die Regel auch in Fällen anwenden kann, in denen es zunächst nicht danach aussieht, da wir keinen Quotienten von zwei Funktionen betrachten. Die nützlichsten Umformungen für solche Situationen sind diese:

In diesen Fällen müssen allerdings die Ableitungen aus Zähler und Nennerfunktion der jeweiligen Umformung gebildet werden. Die Regel von L’Hospital darf auch mehrfach angewendet werden, wenn die Grenzwerte der ersten Ableitungen wiederum die Bedingungen der Regel von L’Hospital erfüllen. Es ist allerdings immer darauf zu achten, dass die Voraussetzungen erfüllt sind. Wenn die Grenzwerte der Funktionen \(\neq 0\) (bzw. \(\neq \infty\)) sind, oder wenn der Grenzwert \(\lim \frac{f'(x)}{g'(x)}\) nicht existiert, so gelten die Regeln nicht, wie in diesen Beispielen gezeigt wird:

Kurvendiskussion

An diesem Punkt haben wir alle Regel für Ableitungen und Extremwertbestimmung gesehen. Hier fassen wir einige der bisherigen Resultate noch einmal zusammen und nutzen sie zur Analyse von Funktionen in Form einer Kurvendiskussion. Sei \(f: A \to \R\) eine in \(A\) differenzierbare Funktion. Wir analysieren für \(f\) die folgenden Eigenschaften.

Symmetrie

Nach auto prüfen wir für Achsensymmetrie, ob \(f(-x) = f(x)\), und für Punktsymmetrie, ob \(f(-x) = -f(x)\) für alle \(x \in A\) gilt.

Verhalten am Rand des Definitionsbereichs

Interessant sind Häufungspunkte \(a\) von \(A\), die nicht zu \(A\) gehören, sowie \(-\infty\) und \(\infty\), falls \(A\) nach unten oder oben unbeschränkt ist. Die folgenden Grenzwerte werden für Häufungspunkte untersucht: \[ \llimto{x}{a} f(x) \quad\text{oder}\quad \rlimto{x}{a} f(x) . \] Dabei ist jeweils festzustellen, ob ein eigentlicher oder uneigentlicher Grenzwert existiert. Für unbeschränkte Definitionsbereiche \(A\) werden die Grenzwerte \[ \limto{x}{\infty} f(x) \quad\text{oder}\quad \limto{x}{-\infty} f(x) \] untersucht. Auch hier wird wieder die Frage nach der Konvergenz oder der Existenz der uneigentlichen Grenzwerte gestellt.

Für die Fälle \(\liminf{x} f(x)\) und \(\limto{x}{-\infty} f(x)\) kann das asymptotische Verhalten analysiert werden. Dazu wird eine Gerade \(g(x) = \alpha x + \beta\) mit \(\alpha,\beta \in \R\) gesucht, sodass \[ \limto{x}{\infty} \left( f(x) - g(x) \right) = 0 \quad\text{bzw.}\quad \limto{x}{-\infty} \left( f(x) - g(x) \right) = 0 . \]

Die Gerade heißt Asymptote von \(f\) für \(x \to \infty\) (bzw. für \(x \to -\infty\)). Die folgenden Bedingungen charakterisieren eine Asymptote und erlauben eine direkte Bestimmung der Werte von \(\alpha\) und \(\beta\): \[ \begin{align*} \limto{x}{\infty} \frac{f(x)}{x} &= \alpha &\quad&\text{bzw.}&\quad \limto{x}{-\infty} \frac{f(x)}{x} &= \alpha , \\ \limto{x}{\infty} \left(f(x) - \alpha x \right) &= \beta &\quad&\text{bzw.}&\quad \limto{x}{-\infty} \left(f(x) - \alpha x \right) &= \beta . \end{align*} \]

Die zweite Bedingung folgt direkt aus der Bedingung an die Asymptote, die erste Bedingung folgt aus \[ \liminf{x} \left(\frac{f(x) - g(x)}{x}\right) = \liminf{x} \left(\frac{f(x) - \alpha x - \beta}{x}\right) = \liminf{x} \left(\frac{f(x)}{x} - \alpha\right) , \] oder aus dem entsprechenden Grenzwert gegen \(-\infty\).

Nullstellen

Eine Nullstelle liegt vor, wenn \(f(x) = 0\).

Extrempunkte und Monotonie

Hier nutzen wir entweder direkt die auto oder die notwendigen und hinreichenden Kriterien für Extrema (auto, auto-no), also \[ f'(x) = 0 \quad\and\quad f''(x) \neq 0 . \]

Über das Verhalten der Funktion am Rand des Definitionsbereichs kann festgestellt werden, ob es sich eventuell sogar um globale Extrema handelt.

Da sich an Extrempunkten das Vorzeichen der ersten Ableitung ändert und wir über das Vorzeichen der ersten Ableitung die Monotonie bestimmen können (auto), teilen die Extrempunkte die Funktion in monotone Teilintervalle: Von einem Hoch- zu einem Tiefpunkt fällt die Funktion, von einem Tief- zu einem Hochpunkt steigt die Funktion. Ist der Extrempunkt mit dem höchsten (niedrigsten) \(x\)-Wert ein Hochpunkt, muss die Funktion danach (davor) fallen und bei einem Tiefpunkt steigen.

Wendepunkt und Konvexität

Ein Wendepunkt liegt dann vor, wenn sich das Vorzeichen der zweiten Ableitung ändert. Wir nutzen entweder direkt diese Bedingung aus auto oder das Resultat aus auto, mit dem wir die notwendigen und hinreichenden Bedingungen der Extrempunkte auf Wendepunkte übertragen konnten, also: \[ f''(x) = 0 \quad \and \quad f'''(x) \neq 0 . \] Analog zum Zusammenhang zwischen Extrema und Monotonie, teilen Wendepunkte die Funktion in konvexe und konkave Teilintervalle.

Funktionsgraph

Aus den bisherigen Analysen lassen sich erste Aussagen über den Verlauf der Funktion machen. Diese können durch die Bestimmung des Verlaufs der Funktion, durch punktweises Abtasten, und die graphische Darstellung noch ergänzt werden.

Als Beispiel untersuchen wir die Funktion \[ f(x) = \frac{x^3 + 2x^2}{x^2 + 2x + 1} = \frac{x^2 (x + 2)}{(x+1)^2} \] mit Definitionsbereich \(A = \R\setminus \set{-1}\).

Symmetrie

Da \(1\in A\) aber \(-1 \notin A\), kann keine Symmetrie vorliegen.

Verhalten am Rand des Definitionsbereichs

Interessant ist das Verhalten der Funktion für \(x\) gegen einen der Werte \(-\infty,\, \infty,\, -1\).

Im Punkt \(-1\) gilt: Der Nenner \((x+1)^2\) ist \(>0\) für alle \(x \in \R\setminus\set{-1}\). Der Zähler \(x^2 (x+2)\) ist \(>0\) für \(x>-2\). Damit ist \(f(x)\) positiv für \(x > -2\). Es gilt \[ \llimto{x}{-1} = \rlimto{x}{-1} f(x) = \infty , \] da \(\limto{x}{-1} x^2(x+2) = 1\) und \(\limto{x}{-1} (x +1)^2 = 0\).

Für die Grenzwerte \(x \to \infty\) und \(x \to -\infty\) gilt \[ \begin{align*} \limto{x}{\infty} f(x) &= \limto{x}{\infty} \frac{x^3 + 2x^2}{x^2 + 2x + 1} = \limto{x}{\infty} \frac{x+2}{1 + \frac{2}{x} + \frac{1}{x^2}} = \infty\\ \limto{x}{-\infty} f(x) &= \limto{x}{-\infty} \frac{x^3 + 2x^2}{x^2 + 2x + 1} = \limto{x}{-\infty} \frac{x+2}{1 + \frac{2}{x} + \frac{1}{x^2}} = -\infty \end{align*} \] Hier hätte auch die Regel von L’Hospital (mehrfach) angewandt werden können, da der Grenzwert im uneigentlichen Sinne existiert: \[ \begin{align*} \limto{x}{\infty} \frac{x^3 + 2x^2}{x^2 + 2x + 1} &\;\stackrel{\text{L'H } \frac{\infty}{\infty}}{=}\; \limto{x}{\infty} \frac{3x^2 + 4x}{2x + 2} \;\stackrel{\text{L'H } \frac{\infty}{\infty}}{=}\; \limto{x}{\infty} \frac{6x + 4}{2} = \infty \\ \limto{x}{-\infty} \frac{x^3 + 2x^2}{x^2 + 2x + 1} &\;\stackrel{\text{L'H } \frac{\infty}{\infty}}{=}\; \limto{x}{-\infty} \frac{3x^2 + 4x}{2x + 2} \;\stackrel{\text{L'H } \frac{\infty}{\infty}}{=}\; \limto{x}{-\infty} \frac{6x + 4}{2} = -\infty \end{align*} \]

Die Asymptote \(g(x) = \alpha x + \beta\) für \(x \to \infty\) wird wie folgt berechnet: \[ \begin{align*} \alpha &= \liminf{x} \frac{x^2 (x+2)}{x (x+1)^2} = \liminf{x} \frac{x^2 + 2x}{x^2 +2x + 1} = 1\\ \beta &= \liminf{x} \left( \frac{x^2 (x+2)}{(x+1)^2} - x \right) = \ldots = \liminf{x} \frac{-x}{x^2 + 2x - 1} = 0 \end{align*} \]

Nullstellen

Es gilt \(f(x) = \frac{x^2 (x+2)}{(x +1)^2} = 0\) für \(x=0\) oder \(x=-2\).

Der Schnittpunkt mit der \(y\)-Achse liegt an der Stelle \(0\), da \(f(0) = 0\).

Extrempunkte und Monotonie

Zur Bestimmung der Extremstellen berechnen wir die erste Ableitung mithilfe der Quotientenregel: \[ \begin{align*} f'(x) &= \frac{(3x^2 +4x)(x+1)^2 - 2(x+1)(x^3+ 2x^2)}{(x+1)^4} \\ &= \frac{3x^3 +4x^2+ 3x^2 + 4x - 2x^3 - 4x^2}{(x+1)^3} \\ &= \frac{x^3 + 3x^2 + 4 x}{(x+1)^3} \\ &= \frac{x(x^2 + 3x +4)}{(x+1)^3} . \end{align*} \] \(f'(x)\) besitzt eine Nullstelle im Punkt \(0\). Für den Term in der Klammer des Zählers gilt \(x^2 + 3x + 4 = \left(x + \frac{3}{2} \right)^2 + \frac{7}{4} \geq \frac{7}{4} > 0\) für alle \(x \in \R\). Damit ist der Zähler \(>0\) für \(x>0\), \(=0\) für \(x=0\) und \(<0\) für \(x<0\). Der Nenner ist \(>0\) für \(x>-1\) und \(<0\) für \(x<-1\), sodass \[ f'(x) \, \begin{cases} > 0 & \text{für } x \in (-\infty, -1) \cup (0, \infty), \\ < 0 & \text{für } x \in (-1, 0), \\ = 0 & \text{für } x = 0. \end{cases} \]

Daraus können wir die folgenden Aussagen über den Verlauf von \(f\) ableiten:

Wie wir gleich sehen werden, gilt \(f''(0) = 2 > 0\), sodass auch die hinreichende Bedingung für das lokale Extremum erfüllt ist. Ein globales Extremum existiert nicht, da die Funktionswerte uneigentlich gegen \(-\infty\) und \(\infty\) konvergieren.

Wendepunkte und Konvexität

Zur Bestimmung der Wendepunkte bestimmen wir die zweite Ableitung: \[ \begin{align*} f''(x) &= \left( \frac{x(x^2 + 3x + 4)}{(x+1)^3} \right)' \\ &= \frac{(3x^2+6x +4)(x+1)^3 - (x^3 + 3x^2 + 4x) 3(x+1)^2}{(x+1)^6} \\ &= \frac{3x^3 + 6x^2 + 4x + 3x^2 +6x + 4 - 3x^3 - 9x^2 -12x}{(x+1)^4} \\ &= \frac{-2x + 4 }{(x+1)^4} \\ &= \frac{2(2 -x)}{(x+1)^4} . \end{align*} \]

Der Nenner ist im Definitionsbereich der Funktion positiv, während der Zähler für \(x < 2\) positiv und für \(x > 2\) negativ ist. Im Punkt \(x=2\) hat \(f''(x)\) eine Nullstelle. Damit gilt \[ f''(x) \, \begin{cases} > 0 & \text{für } (-\infty, -1) \cup (-1, 2)\\ = 0 & \text{für } x = 2 \\ < 0 & \text{für } (2, \infty). \end{cases} \]

Die Funktion hat an der Stelle \(x = 2\) einen Wendepunkt. Für die dritte Ableitung gilt \[ \begin{align*} f'''(x) &= \left( \frac{4-2x}{(x+1)^4} \right)' \\ &= \frac{-2(x+1)^4-(4-2x)\cdot 4 \cdot (x+1)^3}{(x+1)^8} \\ &= \frac{-2(x+1) -(4-2x)4}{(x+1)^5} \\ &= \frac{6x-18}{(x+1)^5} \\ &= \frac{6(x-3)}{(x+1)^5} \end{align*} \] Da \(f''(2) = 0\) und \(f'''(2) = \frac{-6}{3^5} = -\frac{1}{27} \neq 0\), ist die hinreichende Bedingung für einen Wendepunkt erfüllt.

Funktionsgraph

Die folgende Graphik zeigt den Verlauf der Funktion \(f(x)\) im Intervall \([-7,7]\), sowie auch die ersten beiden Ableitungen \(f'(x)\) und \(f''(x)\) und die Asymptote \(g(x)\):

skript-page-code-14dbdb99.gnuplot.svg

Der Satz von Taylor

Wir haben bereits die Darstellung verschiedener Funktionen, wie der Exponentialfunktion, der Cosinus- oder Sinus-Funktion, durch unendliche Reihen kennen gelernt. In diesem Kapitel betrachten wir nun die Approximation von Funktionen durch Potenzreihen in allgemeiner Form. Die Taylorsche Formel versucht, den Verlauf einer Funktion in der Umgebung einer Stelle \(x_0\) durch Kenntnis ihrer Ableitungen an dieser Stelle zu approximieren. Die sich daraus ergebende Taylorentwicklung der Funktion hat hohe Relevanz in der Praxis, da hiermit Funktionen wie Sinus, Cosinus, Logarithmen, allgemeine Potenzen, Wurzeln, etc. durch einfache Polynome (unter gewissen Bedingungen) beliebig genau approximiert werden können.

Sei \(f: A \to \R\) eine \((n+1)\)-mal stetig differenzierbare Funktion, und seien die Funktionen \(T_n, R_n: A \to \R\) für ein beliebiges \(n \in \N\) und \(x_0 \in A\) definiert als \[ T_{n}(x) \mathrel{:=} \sum_{k=0}^n \frac{f^{(k)}(x_0)}{k!} (x-x_0)^k \qquad\text{und}\qquad R_{n}(x) \mathrel{:=} f(x) - T_n(x) . \] Dann existiert zu jedem \(x \in A \setminus \set{x_0}\) ein \(y\) zwischen \(x\) und \(x_0\), sodass \[ R_n (x) = \frac{f^{(n+1)}(y)}{(n+1)!} (x-x_0)^{n+1} . \]

Beweis

Wir betrachten hier nur den Fall \(x < x_0\). Für \(x > x_0\) funktioniert der Beweis genauso.

Die Funktion \(R_n\) ist \((n+1)\)-mal differenzierbar, da \(f\) nach Voraussetzung \((n+1)\)-mal differenzierbar ist und \(T_n (x)\) als Polynom unendlich oft differenzierbar ist.

Wir definieren eine Hilfsfunktion \(g_n: A \to \R\) mit \[ g_n(x) \mathrel{:=} (x - x_0)^{n+1}. \] Es gilt \(R_n(x_0) = g_n(x_0) = 0\), woraus folgt \[ \frac{R_n(x)}{g_n(x)} = \frac{R_n (x) - R_n (x_0)}{g_n(x) - g_n(x_0)}. \]

Hier sind die Bedingungen für den zweiten Mittelwertsatz (auto) gegeben. Es existiert also ein \(y_1 \in (x,x_0)\), sodass \[ \frac{R_n(x)}{g_n(x)} = \frac{R_n'(y_1)}{g_n'(y_1)} = \frac{R_n'(y_1)}{(n+1)\left( y_1-x_0 \right)^n} . \]

Auch für die ersten Ableitungen gilt \(R_n'(x_0) = g_n'(x_0) = 0\), woraus wieder folgt \[ \frac{R_n(x)}{g_n(x)} = \frac{R_n'(y_1)}{g_n'(y_1)} = \frac{R_n'(y_1) - R_n'(x_0)}{g_n'(y_1) - g_n'(x_0)} . \]

Hierauf können wir erneut den zweiten Mittelwertsatz (auto) anwenden. Es existiert also ein \(y_2 \in (y_1,x_0)\), sodass \[ \frac{R_n(x)}{g_n(x)} = \frac{R_n''(y_2)}{g_n''(y_2)} = \frac{R_n''(y_2)}{(n+1) \cdot n \cdot \left(y_2-x_0\right)^{n-1}} . \]

Dies können wir insgesamt \((n+1)\)-mal durchführen, und erhalten schließlich \[ \frac{R_n(x)}{g_n(x)} = \frac{R_n^{(n+1)}(y_{n+1})}{g_n^{(n+1)}(y_{n+1})} = \frac{R_n^{(n+1)}(y_{n+1})}{(n+1)!} \] für ein \(y_{n+1} \in (y_n,x_0) \subset (y_{n-1},x_0) \subset \dots \subset (y_1,x_0) \subset (x,x_0)\).

Für \(R_n(x)\) gilt \[ R_n^{(n+1)}(x) = f^{(n+1)}(x), \] da \[ T_n(x) = \sum_{k=0}^n \frac{f^{(k)}(x_0)}{k!} (x-x_0)^k \] ein Polynom \(n\)-ten Grades ist, weswegen die \((n+1)\)-te Ableitung \(T_n^{(n+1)}(x)\) Null ist.

Insgesamt folgt also die Behauptung: \[ \frac{R_n(x)}{g_n(x)} = \frac{R_n^{(n+1)}(y_{n+1})}{(n+1)!} = \frac{f^{(n+1)}(y_{n+1})}{(n+1)!} \Leftrightarrow R_n(x) = \frac{f^{(n+1)}(y)}{(n+1)!} \left( x-x_0 \right)^{n+1} . \]

Machen Sie sich die Bedeutung des Satzes bewusst: Der Unterschied zwischen der Funktion \(f\) und dem Polynom \(T_n\) entspricht dem Restglied \(R_n(x)\). In vielen Fällen (aber nicht immer) ist dieses Restglied besonders für geringe Differenzen \(\abs{x-x_0}\) klein. Wir hatten sogar schon gezeigt, dass die im Restglied enthaltene Folge \((x-x_0)^{n+1}/(n+1)!\) eine Nullfolge ist (da die Exponentialreihe \(\sum x^k/k!\) für jedes \(x \in \R\) konvergiert). Daher können wir das Restglied in vielen praxisrelevanten Fällen für ein ausreichend hohes \(n\) vernachlässigen und anstelle der Funktion, die beliebig komplex sein kann, ein einfaches Polynom auswerten.

Wir hatten auch schon gesehen, dass wir eine Funktion \(f(x)\) an einer Stelle \(x_0\) durch ihre Tangente \(T(x) = f(x) + f'(x) \cdot (x-x_0)\) approximieren können. Dies ist sogar die beste lineare Approximation von \(f\) an dieser Stelle, mit den Eigenschaften \(f(x_0) = T(x_0)\) und \(f'(x_0)=T'(x_0)\). Die Tangente \(T(x)\) ist nur ein Spezialfall der Taylorschen Formel für \(n=1\). Die Polynome \(T_n(x)\) gehen noch einen Schritt weiter, da sie (wie man recht leicht sieht) im Punkt \(x_0\) bis zur \(n\)-ten Ableitung mit \(f\) übereinstimmen: \[ \forall k \in \{0, \dots, n\} \gilt f^{(k)}(x_0) = T_n^{(k)}(x_0) . \]

In diesem Sinne definieren wir für beliebig oft differenzierbare Funktionen die sogenannte Taylorreihe.

Sei \(f: A \to \R\) eine beliebig oft differenzierbare Funktion in \(x_0 \in A\). Dann heißt \[ T[f,x_0](x) = \sum_{k=0}^\infty \frac{f^{(k)}(x_0)}{k!} (x-x_0)^k \] die Taylorreihe von \(f\) im (Entwicklungs-)Punkt \(x_0\).

Die \(n\)-te Teilsumme der Taylorreihe \(T_n[f,x_0](x)\) bezeichnen wir als Taylorpolynom vom Grad \(n\) mit Entwicklungspunkt \(x_0\): \[ T_n[f,x_0](x) = \sum_{k=0}^n \frac{f^{(k)}(x_0)}{k!} (x-x_0)^k . \]

Wenn Sie sich an auto zurückerinnern, dann wird klar, dass jede Taylorreihe eine Potenzreihe ist. Potenzreihen hatten einen bestimmten Konvergenzradius (vgl. auto), in dem sie konvergieren. Machen Sie sich bei der Funktionsapproximation durch Taylorreihen Folgendes unbedingt bewusst:

Sei \(f(x) = \sin(x)\) und \(x_0 = 0\). Die Ableitungen lauten \[ f'(x) = \cos x ,\; f''(x) = -\sin x ,\; f'''(x) = -\cos x ,\; f^{(4)}(x) = \sin x ,\; \text{usw.} \] Außerdem ist \(\sin(0) = 0\) und \(\cos(0) = 1\). Damit ergibt sich für die Ableitungen in \(x_0\) \[ \left( f^{(n)}(x_0) \right)_{n \in \N} = (0,1,0,-1,0,1,0,-1,...) . \]

Wir erhalten für die Taylorreihe \[ \begin{align*} T[\sin,0](x) &= \frac{\sin(0)}{0!}x^0 + \frac{\cos(0)}{1!}x^1 + \frac{-\sin(0)}{2!}x^2 + \frac{-\cos(0)}{3!}x^3 + \frac{\sin(0)}{4!}x^4 + \ldots \\ &= 0 + \frac{1}{1!}x + 0 \cdot x^2 - \frac{1}{3!}x^3 + 0 \cdot x^4 + \ldots\\ &= \sum_{k=0}^\infty \frac{(-1)^k}{(2k + 1)!} x^{2k + 1} . \end{align*} \]

Wir zeigen nun, dass die Potenzreihe auch gegen die Funktion konvergiert. Dafür betrachten wir das Restglied \(R_n(x)\) aus auto:

Falls \(n=2m\), also \(n\) gerade ist, dann ist \[ \abs{R_{2m}(x)} = \abs{(-1)^{m+1} \frac{\cos(y)}{(2m+1)!} x^{2m+1}} \le \frac{\abs{x}^{2m+1}}{(2m+1)!} . \] Falls \(n = 2m-1\), also \(n\) ungerade ist, dann ist \[ \abs{R_{2m-1}(x)} = \abs{(-1)^m \frac{\sin(y)}{(2m)!}x^{2m}} \le \frac{\abs{x}^{2m}}{(2m)!} . \]

Die Schranken gelten für alle \(y\), da \(\cos(x)\) und \(\sin(x)\) nur Werte im Intervall \([-1,1]\) annehmen können. Damit gilt \(\liminf{n} R_n(x) = 0\) für alle \(x\) und wir können für beliebige \(x\) die Sinusfunktion und ihre Taylorreihe gleichsetzen.

Diese Reihendarstellung des Sinus kennen wir natürlich schon aus auto. Auch die Taylorreihen der Exponentialfunktion und des Cosinus sowie die der hyperbolischen Funktionen entsprechen den bekannten Reihendarstellungen. Es lässt sich sogar allgemein zeigen, dass eine Potenzreihendarstellung eindeutig ist, die Taylorreihe also immer mit der Potenzreihendarstellung einer Funktion übereinstimmt.

Der Verlauf der Funktion \(\sin(x)\) und der Taylorpolynome \(T_n[\sin,0](x)\) aus dem letzten Beispiel wird in der nachfolgenden Demo gezeigt. Es wird deutlich, dass z.B. mit \(T_6[\sin,0](0)\) eine relativ gute Approximation im Intervall \((-\pi,\pi)\) erreicht wird. Außerhalb des Intervalls wird der Verlauf der Funktion aber nicht mehr gut approximiert. Dies zeigt, dass zur Approximation des periodischen Verlaufs der Sinus-Funktion über mehrere Perioden Taylorpolynome eines deutlich höheren Grades verwendet werden müssen. Bei der praktischen Berechnung kann man sich aber die Periodizität der Sinus-Funktion zunutze machen, so dass nur Werte aus dem Intervall \((-\pi, \pi)\) berechnet werden müssen.

Demo: Taylor-Approximation des Sinus

In dieser Demo können sie die Taylor-Approximation ausprobieren. Erhöhen oder verringern Sie den Grad des Taylorpolynoms mit dem \(n\)-Slider und beobachten Sie, wie sich die Approximation mit höherem Grad verbessert. Sie können auch die Stützstelle \(x_0\) entweder rechts oder direkt links am Graphen bewegen.

Als Nächstes betrachten wir ein etwas spannenderes Beispiel, die Taylorreihe des Logarithmus.

\(f(x) = \ln(x)\) ist für \(x = 0\) nicht definiert, daher können wir nicht \(x_0 = 0\) als Entwicklungspunkt wählen. Wir könnten nun z.B. \(x_0 = 1\) wählen, aber dann haben wir in der Taylorreihe immer die etwas umständlichen Terme \((x-1)^k\). Um dies zu vermeiden, entwickelt man stattdessen die Funktion \(f(x) = \ln(x+1)\), da diese für \(x=0\) definiert ist.

Wir entwickeln also die Taylorreihe für \(f(x) = \ln(x+1)\) im Entwicklungspunkt \(0\).

Es gilt \[ f'(x) = \frac{1}{x+1} ,\; f''(x) = \frac{-1}{(x+1)^2} ,\; f'''(x) = \frac{2}{(x+1)^3} ,\; f^{(4)}(x) = \frac{-6}{(x+1)^4} \] und allgemein \[ f^{(k)}(x) = (-1)^{k+1} \frac{(k-1)!}{(x+1)^k}. \] Die allgemeine Formel sollte man streng genommen noch z.B. per vollständiger Induktion nachweisen, aber das überlassen wir Ihnen als Übung. In diesem Beispiel ist die allgemeine Formel auch wenig überraschend.

Für \(x = 0\) ergibt sich \[ f^{(k)} (0) = (-1)^{k+1} \frac{(k-1)!}{(1)^k} = (-1)^{k+1}(k-1)! . \]

Damit ist die Taylorreihe für \(f(x) = \ln(x+1)\) \[ T[f,0](x) = \ln(1) + \sum_{k=1}^\infty \frac{(-1)^{k+1}(k-1)!}{k!}x^k = \sum_{k=1}^\infty \frac{(-1)^{k+1}}{k}x^k . \]

Die Reihe konvergiert nach dem Quotientenkriterium (auto) für \(\abs{x} < 1\), da \[ \abs{ \frac{a_{k+1}}{a_k} } = \abs{ \frac{(-1)^{k+2} \cdot x^{k+1} \cdot k}{(-1)^{k+1}\cdot (k+1) \cdot x^k} } = \frac{k}{k+1} \abs{x} \;\stackrel{k \to \infty}{\longrightarrow}\; \abs{x} < 1 . \]

Für \(x = 1\) entsteht die Reihe \(\sum_{k=1}^\infty \frac{(-1)^{k+1}}{k}\), die nach dem Leibniz-Kriterium (auto) konvergiert.

Für das Restglied gilt \[ R_n(x) = (-1)^{n+2} \frac{n!}{(y+1)^{n+1}}\frac{x^{n+1}}{(n+1)!} = \frac{(-1)^{n+2}}{n+1}\left(\frac{x}{y+1} \right)^{n+1} . \]

Falls \(x > 0\) gilt \(y \in (0,x)\) und damit gilt \(\abs{ \frac{x}{1+y} } < 1\) für \(x \in (0,1)\) und damit auch \(\liminf{n} R_n(x) = 0\). Um zu zeigen, dass das Restglied auch für \(x \in (-1,0)\) und \(x=1\) gegen \(0\) konvergiert, benötigen wir eine andere Art der Darstellung des Restgliedes, die wir hier aber nicht einführen werden. Insofern sei für diese Beweise auf die einschlägigen Lehrbücher verwiesen.

Insgesamt kann man zeigen, dass die Taylorreihe für \(x \in (-1,1]\) gegen die Funktion \(\ln(x + 1)\) konvergiert. Damit ergibt sich unter Anderem für den Grenzwert der alternierenden harmonischen Reihe \[ \sum_{k=1}^\infty \frac{(-1)^{k+1}}{k} = \ln(1 + 1) = \ln(2) . \]

Demo: Taylor-Approximation des Logarithmus

Die Demo hat die gleiche Funktionalität wie die vorherige, allerdings betrachten wir hier die Taylor-Approximation von \(\ln(x+1)\) aus dem letzten Beispiel. Es ist gut erkennbar, dass die Reihe für \(x_0 = 1\) nur in einem Radius von \(1\) um den Entwicklungspunkt die Funktion gut approximiert, also bis hin zu Werten, für welche die Argumente des Logarithmus kleiner oder gleich \(0\) werden würden.

Taylorreihen und der Satz von Taylor mit seiner endlichen Summation sind wichtige Hilfsmittel, die insbesondere bei der numerischen Lösung von Gleichungen und Differentialgleichungen eine große praktische Bedeutung haben. Ein wichtiges Beispiel ist das folgende Newton-Verfahren.

Wir hatten in auto bereits zwei numerische Verfahren kennengelernt, um Nullstellen einer Funktion zu finden (Regula-Falsi und Bisektion). Diese können mithilfe der Taylor-Approximationen verbessert werden, wodurch sich das sogenannten Newton-Verfahren ergibt. Dabei benutzen wir zunächst eine beliebige (auch beliebig schlechte) Schätzung der Nullstelle \(x_0\) und nutzen diese als Entwicklungspunkt der Taylorreihe. Anschließend nähern wir \(f(x)\) über die lineare Approximation \(T_1[f ,x_0] (x)\) an: \[ f(x) \approx f(x_0) + f'(x_0)(x - x_0) . \]

Nun bestimmen wir die Nullstelle dieser Näherung: \[ 0 = f(x_0) + f'(x_0)(x - x_0) \quad\Leftrightarrow\quad x = x_0 - \frac{f(x_0)}{f'(x_0)} . \]

Die Nullstelle der linearen Approximation nehmen wir dann als nächsten Schätzwert \(x_1\) der Nullstelle von \(f\) und beginnen mit dem Verfahren von vorne.

Im Gegensatz zum Bisektionsverfahren oder der Regula Falsi benötigen wir hier nur einen Startwert. Das Newton-Verfahren konvergiert für viele Startwerte deutlich schneller als die anderen beiden Verfahren. Die Konvergenz gegen eine Nullstelle ist aber nicht für jeden Startwert garantiert. Das Newton-Verfahren lässt sich auch für mehrdimensionale Funktionen verallgemeinern und wird sehr häufig für Optimierungen eingesetzt.

Übrigens: Für \(f(x) = x^2 - a\) ergibt sich mit \(f'(x) = 2x\) und \(x_0 = a\) die Folge, die wir aus auto kennen, mit der die Nullstelle von \(f\), also \(\sqrt{a}\), angenähert werden kann: \[ \begin{align*} x_0 &= a ,\\ x_{n + 1} &= x_n - \frac{f(x_n)}{f'(x_n)} \\ &= x_n - \frac{x_n^2 - a}{2x_n} \\ &= \frac{1}{2}\left(x_n + \frac{a}{x_n}\right) . \end{align*} \] Die damals eingeführte Wurzelfolge ist also ein Spezialfall des Newton-Verfahrens.

Demo: Newton-Verfahren

In dieser Demo können Sie mit dem Newton-Verfahren experimentieren. Die Funktion, von der die Nullstelle bestimmt werden soll, kann oben gewählt werden. Die Startschätzung \(x_0\) der Nullstelle kann über den Schieberegler oder direkt durch Ziehen des Punktes \(P_0\) variiert werden. Anschließend können Sie sich mit den Checkboxen die Lösungen der ersten drei Iterationen anzeigen lassen. Beobachten Sie, für welche Startwerte das Verfahren besser oder schlechter funktioniert.

Integralrechnung

Neben der Differentiation ist die Integration ein zweites zentrales Thema der Analysis. Historisch entwickelten sich erste Versionen der Integralrechnung bereits im alten Babylonien, in Ägypten, sowie im antiken Griechenland und China. Sie wurde unter anderem zur Landvermessung benötigt, wobei häufig Flächen bestimmt werden mussten, die nicht durch gerade Linien umschlossen wurden. Inhalte geradlinig begrenzter Flächen wie Dreiecke, Rechtecke oder Trapeze waren bekannt. Also versuchte man krummlinig begrenzte Flächen durch Unterteilung der Fläche in geradlinig begrenzte Flächen zu approximieren. Auch hier taucht wieder der Begriff der Approximation auf, der durch eine immer weitergehende Verfeinerung (Grenzwertbetrachtung) schließlich zum exakten Ergebnis führt. Sie können dies in der folgenden Demo für die Bestimmung einer Kreisfläche ausprobieren.

Demo: Approximation von Pi

In dieser Demo können Sie sehen, wie man die Fläche eines Kreises vom Radius \(r = 1\), also \(A = \pi r^2 = \pi\), mithilfe der Fläche eines äußeren und eines inneren \(n\)-Ecks approximiert. Über den Slider können Sie den Grad des Polygons erhöhen.

Basiert auf Demo von Louiecw

Dies war tatsächlich lange Zeit die gängigste Methode, um immer genauere Approximationen von \(\pi\) zu bestimmen: Man spannte ein regelmäßiges \(n\)-Eck um einen Kreis vom Radius \(1\) und ein weiteres innerhalb des Kreises. Der Wert des Kreisflächeninhalts musste zwischen den Flächeninhalten der beiden \(n\)-Ecke liegen. Damals rechneten Mathematiker dies per Hand aus. Für ein Sechseck können Sie dies selbst einmal recht einfach ausprobieren. Der griechische Mathematiker Archimedes bestimmte bereits ca. 250 v. Chr. mit dieser Methode über ein \(96\)-Eck den Wert von \(\pi\) bis auf zwei Nachkommastellen genau. In Europa machte die Bestimmung von \(\pi\) lange Zeit keine weiteren großen Fortschritte, allerdings waren parallel in China bereits um 500 n. Chr. sieben Nachkommastellen von \(\pi\) bekannt. 1430 gelang es dem persischen Astronomen Al-Khashi, den Flächeninhalt eines \(3 \cdot 2^{28}\)-Ecks zu berechnen und damit 16 Nachkommastellen zu bestimmen. Ludolph van Ceulen erhöhte 1615 auf 35 Stellen mithilfe eines \(2^{62}\)-Ecks, alles per Hand berechnet (zum Vergleich: Ein typischer Computer rechnet mit 8 (single precision) oder 16 (double precision) Nachkommastellen von \(\pi\)). Angeblich soll Ceulen für die Berechnung 30 Jahre seines Lebens investiert haben (dann doch lieber ein Semester in MafI2 etwas über Integrale lernen).

Ganz ähnlich gehen wir nun auch für andere krummlinig begrenzte Flächen vor: Wir approximieren die Fläche, welche von einer Funktion \(f(x)\) und dem Intervall \([a,b]\) eingeschlossen wird, durch Rechtecke, die unterhalb der Funktion liegen. Dadurch ergibt sich eine untere Grenze für den Flächeninhalt der gesuchten Fläche. Analog können wir größere Rechtecke um die Funktionsfläche legen und erhalten eine Abschätzung nach oben. Wenn wir immer mehr und schmalere Rechtecke verwenden, sollte sich als Grenzwert die gesuchte Fläche ergeben.

../images/RI.svg
Basiert auf Bild von Svenlx (Sven Laux), CC BY-SA 3.0

Ähnlich wie schon beim Ableitungsbegriff müssen wir uns wieder fragen, ob wir dies überhaupt für jede Funktion so durchführen können. Nachdem Sie bereits ein paar verrückte Funktionen in den letzten Kapiteln kennengelernt haben, wird es Sie nicht verwundern, dass wir auch hier wieder Funktionen definieren können, die nicht integrierbar sind. Allerdings stößt man in der Praxis eher seltener auf solche Funktionen (anders als nicht stetige oder nicht differenzierbare Funktionen). Daher werden wir den Begriff der sogenannten Riemann-Integrierbarkeit zwar formal einführen, beschränken uns dabei aber nur auf die nötigsten Sätze und Definitionen und werden uns dann verstärkt den Techniken des Integrierens zuwenden.

In diesem Kapitel haben wir fünf Hauptziele:

  1. Den Integralbegriff sowie die Integrierbarkeit einer Funktion über die bereits erwähnten Rechtecksummen definieren.
  2. Beweisen, dass alle stetigen Funktionen integrierbar sind (tatsächlich sind sogar viele unstetige Funktionen integrierbar).
  3. Eine Methode herleiten, mit der wir Integrale über Grenzwerte bestimmen können.
  4. Die Integration und das Differenzieren (Ableiten) in Beziehung setzen mit dem sogenannten Hauptsatz der Differential- und Integralrechnung (aus der Schule kennen Sie vermutlich bereits den Begriff der Stammfunktion, deren Ableitung die zu integrierende Funktion ist).
  5. Mithilfe des Hauptsatzes werden wir Integrationstechniken entwickeln, welche das Integrieren einiger Funktionen vereinfachen.

Riemann-Integrierbarkeit

Wenden wir uns also unserem ersten Ziel zu. Für eine saubere Definition der oben motivierten Rechtecksummen benötigen wir sogenannte Zerlegungen und Treppenfunktionen.

Gegeben seien ein Intervall \([a,b] \subset \R\) und eine endliche Anzahl von Punkten \(x_0, x_1, \dots, x_n\) mit \(a = x_0 < x_1 < \ldots < x_n = b\).

Dann heißt \(Z = (x_0, \dots, x_n)\) eine Zerlegung von \([a,b]\) und \[ \abs{Z} \mathrel{\mathop:=} \max\set{ x_i - x_{i-1} \with i=1, \dots, n} \] ist das Feinheitsmaß der Zerlegung \(Z\). Eine Zerlegung heißt äquidistant, wenn die Intervalle \([x_{i-1}, x_i]\) für \(i = 1, \dots , n\) alle gleich groß sind.

Sei \(Z = (x_0, \dots ,x_n)\) eine Zerlegung des Intervalls \([a,b]\), dann heißt eine Funktion \(\varphi : [a,b] \to \R\) Treppenfunktion, wenn sie auf jedem Teilintervall \((x_{k-1}, x_k)\) konstant ist. Wir bezeichnen mit \(\mathcal{T}[a,b]\) die Menge aller Treppenfunktionen auf \([a,b]\).

Die Funktion \(\varphi : [-1,5] \to \R\) mit \[ \varphi(x) = \begin{cases} 7,& \text{ für } x \in [-1,0) \\ 2,& \text{ für } x \in [0,0.5] \\ 1,& \text{ für } x \in (0.5,3) \\ 6,& \text{ für } x = 3 \\ 5,& \text{ für } x \in (3,5] \end{cases} \] ist eine Treppenfunktion.

Machen Sie sich bewusst, dass die Treppenstufen nicht gleich lang sein müssen (d.h., die Zerlegung muss nicht äquidistant sein) und dass die Treppenstufen nicht nur steigen oder nur fallen müssen. Außerdem sind die Werte der Treppenfunktion an den Zerlegungspunkten beliebig wählbar. Die im letzten Bild dargestellten Rechtecke können wir uns nun als Flächen unter einer Treppenfunktion vorstellen und das Integral einer Treppenfunktion als die Summe der Rechteckflächen definieren.

Sei \(\varphi \in \mathcal{T}[a,b]\) eine Treppenfunktion bezüglich einer Zerlegung \(Z = (a = x_0, x_1, \ldots, x_n = b)\) und seien \(c_k\) die konstanten Funktionsabschnitte von \(\varphi\), also \(\varphi(x) = c_k\) für \(x \in (x_{k-1}, x_k)\).

Dann definieren wir das Integral von \(\varphi\) auf dem Intervall \([a,b]\) als \[ \int_a^b \varphi(x) \dx \mathrel{:=} \sum_{k=1}^n c_k \left( x_k - x_{k-1} \right) . \]

Auf der rechten Seite der Integraldefinition ist jeder Summand eine der Rechteckflächen, welche die Treppenfunktion mit der \(x\)-Achse einschließt. Dabei ist \(c_k\) die Höhe des \(k\)-ten Rechtecks und \((x_k - x_{k-1})\) dessen Breite. Negative \(c_k\) führen zu einer Verringerung des Integralwerts. Beachten Sie, dass die beliebig wählbaren Werte der Treppenfunktion an den Zerlegungspunkten keinen Einfluss auf den Wert des Integrals haben. Genauso hat das Hinzufügen weiterer Zwischenpunkte in der Zerlegung keine Veränderung des Integralwerts zur Folge (ein Rechteck wird lediglich in mehrere Teilrechtecke gleicher Höhe aufgeteilt).

Für die Treppenfunktion \(\varphi : [-1,5] \to \R\) mit \[ \varphi(x) = \begin{cases} 7,& \text{ für } x \in [-1,0) \\ 2,& \text{ für } x \in [0,0.5] \\ 1,& \text{ für } x \in (0.5,3) \\ 6,& \text{ für } x = 3 \\ 5,& \text{ für } x \in (3,5] \end{cases} \] ist \[ \int_{-1}^5 \varphi(x) \dx = 7 \cdot (0 - (-1)) + 2 \cdot (0.5 - 0) + 1 \cdot (3 - 0.5) + 5 \cdot (5 - 3) = 20.5 . \]

Wie bereits angedeutet, werden wir Treppenfunktionen nutzen, um eine Funktion (und deren Integral) von oben und unten zu begrenzen. Dafür benötigen wir folgenden einfachen Satz.

Seien \(\varphi,\psi \in \mathcal{T}[a,b]\) zwei Treppenfunktionen. Dann gilt \[ \forall x \in [a,b] \gilt \varphi(x) \leq \psi(x) \quad\Rightarrow\quad \int_a^b \varphi(x) \dx \leq \int_a^b \psi(x) \dx . \]

Beweis als Übung

Nun können wir die Treppenfunktionsintegrale nutzen, um damit eine untere und obere Grenze für das eigentlich gesuchte Funktionsintegral zu definieren, indem wir die Funktion zwischen einer größeren und einer kleineren Treppenfunktion einschließen. Die Integrale solcher Treppenfunktionen definieren wir als sogenannte Ober- bzw. Untersummen.

Sei \(f : [a,b] \to \R\) eine beliebige beschränkte Funktion und \(Z = (x_0, x_1, ..., x_n)\) eine Zerlegung von \([a,b]\). Seien außerdem \(\overline{\varphi}, \underline{\varphi} \in \mathcal{T}[a,b]\) definiert als \[ \overline{\varphi}(x) \mathrel{:=} \overline{c}_k \;\;\text{für}\;\; x \in [x_{k-1}, x_k) \quad\text{mit}\quad \overline{c}_k := \sup\set{f(x) \mid x_{k-1} \leq x < x_k} \] bzw. \[ \underline{\varphi}(x) \mathrel{:=} \underline{c}_k \;\;\text{für}\;\; x \in [x_{k-1}, x_k) \quad\text{mit}\quad \underline{c}_k := \inf\set{f(x) \mid x_{k-1} \leq x < x_k} \] und \(\overline{\varphi}(b) \mathrel{:=} \underline{\varphi}(b) \mathrel{:=} f(b).\)

Dann bezeichnen wir \[ \overline{S}(Z,f) \mathrel{:=} \int_a^b \overline{\varphi}(x) \dx = \sum_{k=1}^n \overline{c}_k (x_k - x_{k-1}) \] als eine Obersumme von \(f\) und \[ \underline{S}(Z,f) \mathrel{:=} \int_a^b \underline{\varphi}(x) \dx = \sum_{k=1}^n \underline{c}_k (x_k - x_{k-1}) \] als eine Untersumme von \(f\).

Im folgenden Bild zeigen die linke/rechte Abbildung jeweils eine Ober- und eine Untersumme der Funktion.

../images/RI_Ober-Untersummen2.svg
Basiert auf Bild von Svenlx (Sven Laux), CC BY-SA 3.0

Da per Konstruktion \(\underline{\varphi}(x) \leq f(x) \leq \overline{\varphi}(x)\) gilt, ist nach auto auch jede Untersumme kleiner oder gleich jeder Obersumme. Wenn wir die Menge aller Obersummen betrachten, ist diese also nach unten beschränkt und besitzt daher ein Infimum. Genauso ist die Menge der Untersummen nach oben beschränkt und besitzt ein Supremum. Dieses Infimum bzw. Supremum bezeichnen wir als das sogenannte Ober- bzw. Unterintegral von \(f\):

Sei \(f : [a,b] \to \R\) eine beliebige beschränkte Funktion. Dann bezeichnen wir \[ \overline{\int_a^b} f(x) \dx \mathrel{:=} \inf\set{\overline{S}(Z,f) \mid Z \text{ ist Zerlegung von } [a,b]} \] als das Oberintegral von \(f\) und \[ \underline{\int_a^b} f(x) \dx \mathrel{:=} \sup\set{\underline{S}(Z,f) \mid Z \text{ ist Zerlegung von } [a,b]} \] als das Unterintegral von \(f\).

Anschaulich wird klar, dass die gesuchte Fläche unter einer Funktion genau ihrem Ober- bzw. Unterintegral entsprechen sollte. Dies ist der Gedanke hinter der Definition der Riemann-Integrierbarkeit einer Funktion, womit wir unser erstes Etappenziel erreicht haben.

Eine beschränkte Funktion \(f : [a,b] \to \R\) heißt (Riemann-)integrierbar, wenn \[ \underline{\int_a^b} f(x) \dx = \overline{\int_a^b} f(x) \dx . \]

In diesem Fall definieren wir das Integral von \(f\) über \([a,b]\) als \[ \int_a^b f(x) \dx \mathrel{:=} \underline{\int_a^b} f(x) \dx . \]

Beachten Sie, dass wir die Integrierbarkeit damit nur für beschränkte Funktionen (zumindest beschränkt auf \([a,b]\)) definiert haben, denn anderenfalls wäre die Obersumme nicht definiert. Integrale unbeschränkter Funktionen betrachten wir erst in auto. Wenn wir bis dahin von einer integrierbaren Funktion sprechen, ist also immer gleichzeitig eine beschränkte Funktion gemeint.

Es sollte noch erwähnt werden, dass das Vorwort “Riemann-” nicht nur zu Ehren des deutschen Mathematikers Georg Friedrich Bernhard Riemann (1826–1866) verwendet wird. Es gibt in der Mathematik verschiedene Definitionen der Integrierbarkeit und es existieren Funktionen, welche bezüglich einer Definition integrierbar sind, aber bezüglich einer anderen nicht. Für unsere Zwecke ist die Riemann-Integrierbarkeit vollkommen ausreichend und wir werden in Zukunft daher meistens vereinfacht von der Integrierbarkeit einer Funktion sprechen, obwohl wir eigentlich streng genommen die Riemann-Integrierbarkeit meinen.

Übrigens: Das Integralzeichen entstand aus dem Buchstaben “S”, da man sich zu dessen Entstehungszeit ein Integral als eine Summe vorgestellt hat (ähnlich wie wir jetzt auch). Wenn wir uns \(\dx\) erneut als infinitesimale Länge vorstellen (siehe auto), dann sind die Produkte \(f(x) \dx\) Flächeninhalte sehr schmaler Rechtecke, aus denen sich die Integralfläche zusammensetzt. Jedes Rechteck hat an der Stelle \(x\) die Höhe \(f(x)\) und die Breite \(\dx\).

Die Integrationsvariable \(x\) ist übrigens beliebig wählbar (wie jede Funktionsvariable), wir müssen nur aufpassen, dass sie nicht mit einer der Grenzen übereinstimmt. Es gilt also

\[\int_a^b f(x) \dx = \int_a^b f(y) \dy = \int_a^b f(t) \dt .\]

Obwohl wir den Integralbegriff nun definiert haben, können wir damit noch nicht viel anfangen, da wir unendlich viele Treppenfunktionen testen müssten, um die Definition für eine bestimmte Funktion zu prüfen. Daher können wir bisher nur für sehr einfache Beispiele die Integrierbarkeit nachweisen oder widerlegen.

Ähnlich wie bereits im Fall der Stetigkeit (vgl. auto) können wir eine alternative Integrierbarkeitsbedingung durch ein \(\eps\)-Kriterium herleiten, mit dessen Hilfe wir die Integrierbarkeit von Funktionen leichter beweisen können.

Eine Funktion \(f : [a,b] \to \R\) ist genau dann integrierbar, wenn zu jedem \(\eps > 0\) eine Obersumme \(\overline{S}(Z,f)\) und eine Untersumme \(\underline{S}(Z',f)\) existieren mit

\[\overline{S}(Z,f) - \underline{S}(Z',f) \leq \eps.\]

Beweis

\(\Rightarrow\)-Richtung:

Wenn \(f\) integrierbar ist, dann sind Ober- und Unterintegral identisch. Sei \(I\) der Wert dieses Ober- und Unterintegrals. Damit existiert nach der Definition des Unterintegrals eine Untersumme mit \(I - \underline{S}(Z',f) \leq \eps/2\), da \(I\) die kleinste obere Schranke aller Untersummen ist (machen Sie sich dies noch einmal in Ruhe klar). Genauso existiert nach der Definition des Oberintegrals eine Obersumme mit \(\overline{S}(Z,f) - I \leq \eps/2.\)

Daraus folgt \[ \overline{S}(Z,f) - \underline{S}(Z',f) = \overline{S}(Z,f) - I + I - \underline{S}(Z',f) \leq \eps/2 + \eps/2 = \eps \] und damit folgt die Behauptung.

\(\Leftarrow\)-Richtung:

Wenn umgekehrt das \(\eps\)-Kriterium gilt, dann können wir durch Widerspruch folgern, dass \(f\) integrierbar sein muss: Angenommen, \(f\) ist nicht integrierbar, dann ist der Oberintegralwert \(O\) ungleich dem Unterintegralwert \(U\). Sei \(\eps = (O - U)/2\), dann existieren auch für dieses \(\eps\) Ober- und Untersummen mit \[ \overline{S}(Z,f) - \underline{S}(Z',f) \leq \eps. \]

Da \(O\) als das Infimum aller Obersummen definiert ist, muss gelten \(O \leq \overline{S}(Z,f)\). Es folgt damit \[ \overline{S}(Z,f) - \underline{S}(Z',f) \leq \eps < 2 \eps = O - U \leq \overline{S}(Z,f) - U, \] also insgesamt \(U < \underline{S}(Z',f).\) Dies steht aber im Widerspruch dazu, dass \(U\) das Supremum aller Untersummen ist (↯).

Ausgestattet mit dem handlicheren \(\eps\)-Kriterium können wir uns nun unserem zweiten Ziel zuwenden und die Integrierbarkeit aller stetigen Funktionen beweisen.

Sei \(f: A \to \R\) eine auf \([a,b] \subseteq A\) stetige Funktion. Dann ist \(f\) auf \([a,b]\) integrierbar.

Beweis

Wir hatten bereits in auto bewiesen, dass eine stetige Funktion auf einem kompakten Intervall sogar gleichmäßig stetig ist. Für alle \(\eps > 0\) existiert also wegen der gleichmäßigen Stetigkeit von \(f\) ein \(\delta > 0\), sodass \[ \forall x,y \in [a,b] \;\text{ mit }\; \abs{x-y} < \delta \gilt \abs{f(x) - f(y)} < \eps . \]

Wir wählen \(n \in \N\) so groß, dass gilt \(\frac{b - a}{n} < \delta\). Nun definieren wir eine Zerlegung \(Z = (x_0, x_1, ..., x_n)\) von \([a,b]\) mit \[ x_k \mathrel{:=} a + k \, \frac{b - a}{n}. \]

Auf jedem Teilintervall der Zerlegung existiert nach auto ein minimaler und ein maximaler Funktionswert von \(f\). Seien \(s_k\) die Stellen, an denen \(f\) die Minima auf \([x_{k-1}, x_k]\) annimmt, und \(t_k\) die Stellen der Maxima. Die Zerlegung definiert eine Ober- bzw. Untersumme, wobei die konstanten Funktionswerte der Treppenfunktionen jeweils den Minima und Maxima auf den Teilintervallen entsprechen: \[ \begin{align*} \underline{S}(Z,f) &= \sum_{k=1}^n f(s_k) (x_k - x_{k -1}) = \sum_{k=1}^n f(s_k) \frac{b-a}{n} ,\\ \overline{S}(Z,f) &= \sum_{k=1}^n f(t_k) (x_k - x_{k -1}) = \sum_{k=1}^n f(t_k) \frac{b-a}{n} . \end{align*} \]

Wegen \(x_k - x_{k-1} = \frac{b-a}{n} < \delta\) gilt auch \(t_k - s_k < \delta\). Wegen der gleichmäßigen Stetigkeit von \(f\) gilt dann \(f(t_k) - f(s_k) < \eps\). Es folgt insgesamt \[ \begin{align*} \overline{S}(Z,f) - \underline{S}(Z,f) &= \frac{b-a}{n} \sum_{k=1}^n \left( f(t_k) - f(s_k) \right) \\ &< \frac{b-a}{n} \, n \, \eps \\ &= \eps (b-a) \end{align*} \] und somit nach auto die Integrierbarkeit von \(f\).

Eine graphische Darstellung der Konstruktion sehen Sie in der untenstehenden Abbildung.

../images/RI_stetig.svg

Für den Beweis haben wir gezeigt, dass die blaue Fläche beliebig klein werden kann. Die blauen Rechtecke haben nach unserer Konstruktion jeweils eine Breite von \(\frac{b-a}{n}\) und eine Höhe von maximal \(\eps\) (aufgrund der gleichmäßigen Stetigkeit). Es gibt \(n\) Rechtecke, also ergibt sich eine Gesamtfläche von \((b-a)\eps\). Da wir \(\eps\) beliebig klein wählen können und \((b-a)\) konstant ist, wird auch die Fläche beliebig klein.

Wie bereits erwähnt, muss eine Funktion aber nicht zwangsweise stetig sein, um integrierbar zu sein. Wir zeigen zum Beispiel im folgenden Satz, dass monotone Funktionen unabhängig von ihrer Stetigkeit immer integrierbar sind.

Sei \(f: A \to \R\) eine auf \([a,b] \subseteq A\) monotone Funktion. Dann ist \(f\) auf \([a,b]\) integrierbar.

Beweis

Für den Beweis nehmen wir an, dass \(f\) auf \([a,b]\) monoton wächst (der monoton fallende Fall lässt sich analog beweisen).

Wir nutzen erneut die Zerlegung \(Z = (x_0, x_1, ..., x_n)\) von \([a,b]\) mit \[ x_k \mathrel{:=} a + k \cdot \frac{b - a}{n} \] und die zugehörigen Ober- und Untersummen. Da \(f\) monoton wächst, entsprechen die Treppenfunktionswerte der Untersumme jeweils den Funktionswerten von \(f(x)\) an den linken Intervallgrenzen und die der Obersumme den rechten Teilintervallgrenzen.

Für die Differenz gilt dann: \[ \begin{align*} \overline{S}(Z,f) - \underline{S}(Z,f) &= \sum_{k=1}^n f(x_k) \left( x_{k}- x_{k-1} \right) - \sum_{k=1}^n f(x_{k-1}) \left( x_{k} - x_{k-1} \right) \\ &= \sum_{k=1}^n \left( f(x_k) - f(x_{k-1}) \right) \left( x_{k} - x_{k-1} \right) \\ &= \frac{b-a}{n} \sum_{k=1}^n \left( f(x_k) - f(x_{k-1} \right) \\ &= \frac{b-a}{n} \left( f(b) - f(a) \right) . \end{align*} \]

Für ein genügend großes \(n\) wird die Integraldifferenz der beiden Treppenfunktionen also beliebig klein. Damit folgt die Integrierbarkeit von \(f\) auf \([a,b]\) nach auto.

Wenn wir also eine unstetige Funktion in monotone Teilintervalle zerlegen können, dann ist \(f\) auch auf jedem Teilintervall integrierbar (wir werden später noch zeigen, dass daraus auch die Integrierbarkeit für das gesamte Intervall folgt).

Die Funktion \(f : [0,2] \to \R\) mit \[ \begin{align*} f(x) = \begin{cases} x, &\text{ für } x \in [0,1)\\ -x + 4, &\text{ für } x \in [1,2] \end{cases} \end{align*} \] ist nicht stetig in \(x = 1\). Sie ist aber monoton wachsend für \(x \in [0,1]\) und monoton fallend für \(x \in [1,2]\). Daher ist sie auf beiden Intervallen integrierbar.

Im Rahmen dieser Vorlesung reichen uns die angeführten Sätze für die Integrierbarkeit aus. Wir haben versucht, diesen Abschnitt auf ein Minimum zu begrenzen, da die Integrierbarkeit wie bereits erwähnt für die allermeisten praxisrelevanten Funktionen auf ihrem Definitionsbereich gegeben ist und daher kaum überprüft werden muss. Kritisch wird die Integrierbarkeit immer in Fällen, in denen die Funktion auf dem Integrationsintervall unbeschränkt ist, oder am Rand des Intervalls nicht definiert ist. Solche Fälle betrachten wir in auto.

Integralbestimmung durch Grenzwerte

Dieser Abschnitt ist besonders für uns als Informatiker*innen interessant, da wir hier die Grundlage für die numerische Integralbestimmung legen. Wir werden noch feststellen, dass manche sehr bedeutsame Integraltypen gar nicht analytisch lösbar sind, weswegen numerische Lösungsverfahren in solchen Fällen die einzige Möglichkeit zur Integralbestimmung darstellen. In solchen Fällen wird die zu integrierende Funktion an verschiedenen Stellen ausgewertet (der Funktionswert bestimmt) und der Integralwert über einfache Flächen (wie z.B. Rechtecke oder Trapeze) approximiert. Für eine Approximationslösung will man natürlich wissen, unter welchen Kriterien diese gegen die zu approximierende Größe, also in diesem Fall den tatsächlichen Integralwert, konvergiert. Diesem Thema widmen wir uns nun.

In der folgenden Demo können Sie verschiedene Unter- und Obersummen für eine Funktion erzeugen.

Demo: Unter- und Obersummen

In dieser Demo können Sie sich für eine Funktion \(f\) jeweils Treppenfunktionen erzeugen, die kleiner bzw. größer sind als \(f\). Sie können über den Schieberegler die Anzahl der Unterteilungsstellen der Zerlegung wählen. Sie können wählen, ob eine kleinere Treppenfunktion \(g\) oder eine größere Treppenfunktion \(h\) angezeigt werden soll. Der Wert des Treppenfunktionsintegrals wird jeweils berechnet.

Das Oberintegral ist das Infimum aller möglichen Treppenfunktionsintegralwerte \(h\). Das Unterintegral ist das Supremum aller möglichen Treppenfunktionsintegralwerte \(g\). Beobachten Sie für die Treppenfunktion \(g\), mit welchen Zerlegungen sich bei gleicher Anzahl von Teilintervallen der größte Integralwert ergibt.

Wir vermuten, dass wir den Wert des Integrals bestimmen können, wenn wir die Zerlegung immer feiner wählen, das Feinheitsmaß der Zerlegung also gegen Null konvergiert. Um dies zu beweisen, definieren wir uns zunächst, was wir mit einer Verfeinerung einer Zerlegung meinen.

Seien \(Z, Z'\) Zerlegungen beliebiger Intervalle.

Eine Zerlegung \(\tilde{Z}\) wird Verfeinerung von \(Z\) genannt, wenn \(\tilde{Z}\) dasselbe Intervall zerlegt und alle Punkte von \(Z\) enthält.

Eine Zerlegung \(\hat{Z}\), die genau die Punkte der Zerlegungen \(Z\) und \(Z'\) enthält, nennen wir Überlagerung von \(Z\) und \(Z'\) und schreiben dafür \(\hat{Z} = Z + Z'\).

Nun betrachten wir, was mit Ober-/Untersummen passiert, wenn wir von einer Zerlegung auf eine andere wechseln.

Sei \(f(x)\) auf \([a,b]\) beschränkt mit \(\abs{f(x)} \leq K\) und sei \(Z\) eine Zerlegung von \([a,b]\) mit Feinheitsmaß \(\abs{Z}\). Die Zerlegung \(\tilde{Z}\) von \([a,b]\) entstehe aus \(Z\) durch Hinzunahme eines zusätzlichen Punktes. Dann gilt:

  1. \(\underline{S}(Z,f) \;\leq\; \underline{S}(\tilde{Z},f) \;\leq\; \underline{S}(Z,f) + 2K \abs{Z}\)
  2. \(\overline{S}(Z,f) \;\geq\; \overline{S}(\tilde{Z},f) \;\geq\; \overline{S}(Z,f) - 2K \abs{Z}\)
Beweis

Wir zeigen den Fall (a). Den Fall (b) beweist man analog.

Sei \(Z = (x_0, \dots, x_n)\) und sei \(\tilde{x} \in (x_{k-1}, x_k)\) der zusätzlich eingefügte Punkt für ein beliebiges \(k \in \set{1, \dots, n}\), sodass gilt \[ \tilde{Z} = \left( x_0, \dots , x_{k-1}, \tilde{x}, x_k, \dots , x_n \right) . \]

Seien außerdem \[ \begin{align*} m_k &= \inf\set{ f(x) \mid x \in [x_{k-1}, x_k] } ,\\ \tilde{m}_1 &= \inf\set{ f(x) \mid x \in [x_{k-1}, \tilde{x}] } \geq m_k ,\\ \tilde{m}_2 &= \inf\set{ f(x) \mid x \in [\tilde{x}, x_k] } \geq m_k \end{align*} \] die von der Verfeinerung betroffenen Funktionswerte der Treppenfunktionen der zu \(Z\) und \(\tilde{Z}\) gehörigen Untersummen. Dann folgt: \[ \underline{S}(\tilde{Z},f) \;=\; \underline{S}(Z,f) - \left( x_k - x_{k-1} \right) m_k + \left( \tilde{x} - x_{k-1} \right) \tilde{m}_1 + \left( x_k - \tilde{x} \right) \tilde{m}_2 \] Dies ist äquivalent zu \[ \begin{eqnarray*} \underline{S}(\tilde{Z},f) - \underline{S}(Z,f) &=& \left(\tilde{x} - x_{k-1}\right) \tilde{m}_1 + \left( x_k - \tilde{x} \right) \tilde{m}_2 - \left (x_k - x_{k-1} \right) m_k \\ &=& \tilde{x} \tilde{m}_1 - x_{k-1} \tilde{m}_1 + x_k \tilde{m}_2 - \tilde{x} \tilde{m}_2 - x_k m_k + x_{k-1} m_k\\ &=& \tilde{x} \tilde{m}_1 - x_{k-1} \tilde{m}_1 + x_k \tilde{m}_2 - \tilde{x} \tilde{m}_2 - x_k m_k + x_{k-1} m_k\\ && \underbrace{+ \tilde{x} m_k - \tilde{x} m_k}_{0 \text{ addiert}}\\ &=& \underbrace{(\tilde{x}-x_{k-1})}_{\geq 0} \, \overbrace{\underbrace{(\tilde{m}_1 - m_k)}_{\geq0}}^{\leq 2K} \;+\; \underbrace{(x_k -\tilde{x})}_{\geq 0} \, \overbrace{\underbrace{(\tilde{m}_2 - m_k)}_{\geq 0}}^{\leq 2K} \end{eqnarray*} \]

Es folgt also zum Einen \[ \underline{S}(\tilde{Z},f) - \underline{S}(Z,f) \geq 0, \] womit der linke Teil der Behauptung gilt. Zum Anderen folgt \[ \begin{eqnarray*} \underline{S}(\tilde{Z},f) - \underline{S}(Z,f) &\leq& 2K \left( \tilde x - x_{k-1} \right) + 2K \left( x_k - \tilde{x} \right) \\ &=& 2K \underbrace{\left( x_k-x_{k-1} \right)}_{\leq \abs{Z}} \\ &\leq& 2K \abs{Z}, \end{eqnarray*} \] womit der rechte Teil der Behauptung gilt.

Damit haben wir gezeigt, dass wir durch eine Verfeinerung einer Ober-/Untersumme stets dichter an das Ober-/Unterintegral herankommen. Wir können den letzten Satz auch mehrmals hintereinander ausführen, um alle Punkte einer zweiten Zerlegung \(Z'\) in die erste Zerlegung \(Z\) einzufügen, um so eine Überlagerung \(Z + Z'\) der beiden Zerlegungen zu erzeugen. Dabei ergibt sich dann beispielsweise für die Untersumme \[ \underline{S}(Z,f) \;\leq\; \underline{S}(Z + Z',f) \;\leq\; \underline{S}(Z,f) + 2pK \abs{Z}, \] wobei \(p\) die Anzahl der eingefügten Punkte angibt. Damit lässt sich nun zeigen, dass wir den Integralwert als Grenzwert immer feinerer Ober- und Untersummen bestimmen können.

Sei \(f : [a,b] \to \R\) eine beschränkte Funktion und \((Z_n)\) eine Folge von Zerlegungen mit \[ \liminf{n} \abs{Z_n} = 0. \]

Dann gilt

  1. \(\displaystyle \liminf{n} \underline{S}(Z_n, f) = \underline{\int_a^b} f(x) \dx ,\)
  2. \(\displaystyle \liminf{n} \overline{S}(Z_n, f) = \overline{ \int_a^b} f(x) \dx .\)
Beweis

Wir führen den Beweis wieder nur für Fall (a). Fall (b) wird analog bewiesen.

Seien \(I \mathrel{:=} \underline{\int_a^b} f(x) \dx\) und \(S \mathrel{:=} \liminf{n} \underline{S}(Z_n, f)\). Wir wollen zeigen, dass \(I = S\) gilt.

Da \(I\) das Supremum aller Untersummen ist, gibt es für alle \(\eps > 0\) eine Zerlegung \(Z_\eps\), sodass für die Untersumme gilt \[ 0 \leq I - \underline{S}(Z_\eps,f) < \eps . \tag{*} \] (Ansonsten wäre \(I-\eps\) größer als alle Untersummen, also eine obere Schranke, was im Widerspruch zur Supremumseigenschaft von \(I\) steht.)

Nach auto gilt \[ \underline{S}(Z_n,f) \;\leq\; \underline{S}(Z_n + Z_\eps,f) \;\leq\; \underline{S}(Z_n,f) + 2pK \abs{Z_n}, \] wobei \(p\) die Anzahl der in \(Z_n\) einzufügenden Zwischenpunkte für die Überlagerung mit \(Z_\eps\) ist.

Es gilt \[ \liminf{n} \left( \underline{S}(Z_n,f) + 2pK\abs{Z_n} \right) = S + 2pK \cdot 0 = S. \]

Somit folgt nach dem Sandwich-Theorem (auto), dass auch gilt \[ \liminf{n} \underline{S}(Z_n + Z_\eps, f) = S . \]

Außerdem ist \[ \underline{S}(Z_\eps, f) \;\leq\; \underline{S}(Z_n + Z_\eps,f) \;\leq\; I, \] weshalb zusammen mit \((*)\) folgt: \[ 0 \leq I - \underline{S}(Z_n + Z_\eps,f) \;<\; \eps. \]

Da dies für ein beliebiges \(\eps > 0\) gilt, gilt es auch für \(\eps = \frac{1}{n}.\) Damit folgt nach dem Sandwich-Theorem \[ 0 \;=\; I - \liminf{n} \underline{S}(Z_n + Z_\eps,f) \;=\; I - S \] und damit die Behauptung \(I = S\).

Mit dem letzten Satz haben wir nun unser nächstes Etappenziel erreicht. Jetzt können wir über auto und auto die Integrierbarkeit einer Funktion sicherstellen, womit laut Definition der Integrierbarkeit das Ober- und Unterintegral identisch sind. Anschließend können wir mit auto den Wert des Integrals bestimmen.

Wir nutzen hier stets die Zerlegungsfolge \(Z_n\) mit Teilpunkten \(x_{n,k} = a + k\frac{b - a}{n}\), womit für das Feinheitsmaß \(\abs{Z_n} = x_{n,k} - x_{n,k-1} = \frac{b-a}{n}\) gilt.

  1. Wir wollen \(f(x) = x\) auf \([0,b]\) integrieren (also \(a=0\)). \(f\) ist stetig und monoton, also auf jeden Fall integrierbar (auto oder auto). Wir bestimmen die Obersumme. Da \(f\) monoton wächst, wird das Supremum im Intervall \([x_{k-1}, x_k]\) stets an der rechten Intervallgrenze \(x_k\) angenommen. Die Obersumme ergibt: \[ \begin{align*} \overline{S}(Z_n,f) &= \sum_{k=1}^n f(x_{n,k}) \left(x_{n,k} - x_{n,k-1}\right)\\ &= \sum_{k=1}^n \left(0 + k\frac{b-0}{n}\right) \frac{b-0}{n}\\ &= \frac{b^2}{n^2} \sum_{k=1}^n k\\ &= \frac{b^2}{n^2} \frac{n(n+1)}{2}\\ &= \frac{n^2+n}{n^2} \frac{b^2}{2}\\ &\stackrel{n \to \infty}{\rightarrow} \frac{b^2}{2} . \end{align*} \] Also gilt \(\displaystyle \int_0^b x \dx = \frac{b^2}{2}\).

  2. Wir wollen \(f(x) = e^x\) auf \([0,b]\) integrieren. \(f\) ist stetig und monoton, also auf jeden Fall integrierbar (auto oder auto). Wir bestimmen die Obersumme. Da \(f\) monoton wächst, befindet sich das Supremum stets an der rechten Intervallgrenze. \[ \begin{align*} \overline{S}(Z_n, f) &= \sum_{k=1}^n f(x_{n,k}) \left( x_{n,k} - x_{n,k-1} \right) \\ &= \sum_{k=1}^n e^{kb/n} \frac{b-0}{n} \\ &= \frac{b}{n} \sum_{k=1}^n \left( e^{b/n} \right)^k \\ &= \frac{b}{n} \left( \sum_{k=0}^n \left( e^{b/n} \right)^k - 1 \right) \\ &= \frac{b}{n} \left( \frac{1 - \left( e^{b/n} \right)^n}{1 - e^{b/n}} - 1 \right) \\ &= \frac{b}{n} \left( \frac{1 - e^b}{1 - e^{b/n}} - 1 \right)\\ &\stackrel{h := b/n}{=} h \left( \frac{1 - e^b}{1 - e^{h}} - 1 \right) \\ &= \left( 1 - e^b \right) \frac{h}{1-e^h} - h . \end{align*} \]

Durch die Substitution \(h=b/n\) wird aus \(n \to \infty\) der Grenzübergang \(h \to 0\) und es folgt \[ \limto{h}{0} \frac{h}{1-e^h} \;\stackrel{\text{l'Hospital}}{=}\; \limto{h}{0} \frac{1}{-e^h} \;=\; -1 \] und damit insgesamt \[ \int_0^b e^x \dx = e^b - 1 . \]

Demo: Integrale als Grenzwert von Ober- und Untersummen

In dieser Demo können Sie den letzten Satz in Aktion sehen. Mit dem Schieberegler können Sie die Feinheit der Zerlegung steuern und sich jeweils Ober- und Untersumme bzw. den Integralwert anzeigen lassen. Sie können auch die Integralgrenzen oder die Funktion selbst verändern.

Wenn wir wissen, dass die Funktion integrierbar ist, können wir den letzten Satz noch weiter vereinfachen, da wir dann einen beliebigen Zwischenpunkt auf jedem Teilintervall der Zerlegung nutzen dürfen.

Sei \(f : [a,b] \to \R\) eine integrierbare Funktion und \((Z_n)\) eine Zerlegungsfolge mit \(\liminf{n} \abs{Z_n} = 0\). Für jede Zerlegung \(Z_n = (x_0, x_1, ..., x_m)\) sei \(\varphi_n \in \mathcal{T}[a,b]\) eine Treppenfunktion mit \[ \varphi_n(x) \mathrel{:=} f(\xi_k) \;\text{ für }\; x \in [x_{k-1}, x_k) \;\text{ mit beliebigem }\; \xi_k \in [x_{k-1},x_k] \] und \(\varphi_n(b) = f(b)\). Dann konvergiert die Folge \((S_n)\) der Riemannschen Zwischensummen \[ S_n \mathrel{:=} \int_a^b\varphi_n(x) \dx \;=\; \sum_{k=1}^n f(\xi_k) \left( x_k - x_{k-1} \right) \] gegen das Integral: \[ \int_a^b f(x) \dx = \liminf{n} S_n. \]

Beweis

Hier nur als Beweisskizze, formulieren Sie den Beweis gerne zur Übung in Ruhe aus:

\(\varphi(x)\) liegt stets zwischen den zwei Treppenfunktionen, welche die Unter- bzw. Obersumme zur Zerlegung \(Z_n\) definieren (machen Sie sich klar, warum). Die Folge der Obersummen und Untersummen konvergiert nach auto gegen das Ober- und Unterintegral, deren Werte aufgrund der Integrierbarkeit von \(f\) nach auto übereinstimmen. Aus dem Sandwich-Theorem (auto) folgt dann die Satzaussage.

Wie bereits in der Einleitung zu diesem Kapitel erwähnt, werden tatsächlich in der Praxis viele Integrale auf ähnliche Art berechnet, indem diese in Rechtecksummen aufgeteilt werden. Dadurch muss jetzt nur noch die Funktion an viele Stellen ausgewertet werden, und wenn wir dies an immer mehr Stellen der Funktion durchführen, wird das Integral immer genauer approximiert (Feinheit nimmt immer stärker zu). In manchen Fällen werden die Punkte, an denen die Funktion ausgewertet wird, sogar zufällig ausgewählt, dann spricht man von einer sogenannten Monte-Carlo-Integration. Dies wird besonders häufig für mehrdimensionale Integrale angewendet, bei denen nicht nur über ein Intervall, sondern über eine ganze Fläche, oder ein Volumen, oder noch höherdimensionale Gebiete integriert werden muss. Ein typisches Beispiel aus der Computergrafik sind Raytracing-Verfahren, bei denen die Beleuchtung an einem Punkt im Raum berechnet werden muss. Hier muss theoretisch über jede mögliche Richtung, aus der Licht auf den betrachteten Punkt treffen könnte, der entsprechende Lichtanteil integriert werden. Dies wäre analytisch gar nicht möglich, allerdings kann das Integral über eine endliche Auswahl von Lichtstrahlen (Funktionsauswertungen) approximiert werden.

Mithilfe von auto können wir nun außerdem recht einfach die wichtigsten Eigenschaften von Integralen beweisen.

Seien \(f\) und \(g\) zwei auf \([a,b]\) integrierbare Funktionen und \(\lambda, \mu \in \R\). Dann gilt:

  1. Linearität: Auch \(\lambda f + \mu g\) ist integrierbar und es gilt \[\int_a^b \lambda f(x) + \mu g(x) \dx = \lambda \int_a^b f(x) \dx + \mu \int_a^b g(x) \dx.\]

  2. Monotonie: Wenn \(f(x) \leq g(x) \; \forall x \in [a,b]\), dann gilt \[\int_a^b f(x) \dx \leq \int_a^b g(x) \dx.\]

  3. Beschränktheit: Auch \(\abs{f(x)}\) ist integrierbar und es gilt \[\abs{ \int_a^b f(x) \dx } \leq \int_a^b \abs{f(x)} \dx.\]

Beweis

Die Eigenschaften folgen im Wesentlichen aus den Eigenschaften von Folgen, da wir nun Ober- und Unterintegral über Folgen von Ober- und Untersummen darstellen können.

  1. Sei \(Z_n\) eine Zerlegungsfolge von \([a,b]\) mit \(\abs{Z_n} \to 0\). Machen Sie sich zur Übung klar, dass mit jeder Zerlegung \(Z\) für die Ober- bzw. Untersumme gilt \[ \lambda \underline{S}(Z,f) + \mu \underline{S}(Z,g) = \underline{S}(Z,\lambda f + \mu g) .\]

    Da \(f\) und \(g\) integrierbar sind, gilt \[ \begin{align*} \liminf{n} \underline{S}(Z_n,f) &= \liminf{n} \overline{S}(Z_n,f) = I_f ,\\ \liminf{n} \underline{S}(Z_n,g) &= \liminf{n} \overline{S}(Z_n,g) = I_g . \end{align*} \]

    Es folgt dann aus den Kombinationsregeln für Folgengrenzwerte auto \[ \begin{align*} \liminf{n} \left( \underline{S}(Z_n,\lambda f) + \underline{S}(Z_n, \mu g) \right) &= \lambda \liminf{n} \underline{S}(Z_n, f) + \mu \liminf{n} \underline{S}(Z_n,g) = \lambda I_f + \mu I_g \\ \liminf{n} \left( \overline{S}(Z_n,\lambda f) + \overline{S}(Z_n, \mu g) \right) &= \lambda \liminf{n} \overline{S}(Z_n, f) + \mu \liminf{n} \overline{S}(Z_n,g) = \lambda I_f + \mu I_g . \end{align*} \]

    Daraus folgt die Integrierbarkeit und die angegebene Gleichung.

  2. Im Fall der Gleichheit ist die Aussage trivial. Für den \(<\)-Fall sei \(Z_n\) eine Zerlegungsfolge von \([a,b]\) mit \(\abs{Z_n} \to 0\). Dann ist das Infimum/Supremum von \(f\) auf jedem Teilintervall kleiner als das Infimum/Supremum von \(g\). Es gilt also für Ober/Untersummen: \[ \underline{S}(Z_n,f) \;\leq\; \underline{S}(Z_n,g) \quad \text{und} \quad \overline{S}(Z_n,f) \;\leq\; \overline{S}(Z_n,g) . \]

    Damit gilt die Ungleichung nach auto auch für die Grenzwerte der Folgen: \[ \int_a^b f(x) \dx \;\leq\; \int_a^b g(x) \dx . \]

  3. Den Beweis der Integrierbarkeit von \(\abs{f(x)}\) lassen wir Ihnen zu Übungszwecken. Es gilt \(f(x) \leq \abs{f(x)}\) sowie \(-f(x) \leq \abs{f(x)}\). Aus (b) folgt dann sofort die Behauptung.

Eine Funktion \(f:[a,b] \to \R\) ist genau dann integrierbar auf \([a,b]\), wenn sie auf \([a,c]\) und \([c,b]\) integrierbar ist für ein \(c \in (a,b)\). Es gilt außerdem \[ \int_a^b f(x) \dx = \int_a^c f(x) \dx + \int_c^b f(x) \dx . \]

Beweis

Sei \(\tilde{Z}_n\) eine Folge von Zerlegungen von \([a, c]\) und \(\hat{Z}_n\) eine Folge von Zerlegungen von \([c, b]\) mit \(\abs{\tilde{Z}_n} \to 0\) und \(\abs{\hat{Z}_n} \to 0\) für \(n \to \infty\). Dann ist \(Z_n \mathrel{:=} \tilde{Z}_n + \hat{Z}_n\) für jedes \(n\) eine Zerlegung von \([a,b]\) und es gilt \(\abs{Z_n} \leq \max\set{\abs{\tilde{Z}_n}, \abs{\hat{Z}_n}} \to 0\) für \(n \to \infty\). Für alle \(n \geq 0\) gilt \[ \begin{align*} \overline{S}(\tilde{Z}_n,f) + \overline{S}(\hat{Z}_n,f) &= \overline{S}({Z}_n,f) , \\ \underline{S}(\tilde{Z}_n,f) + \underline{S}(\hat{Z}_n,f) &= \underline{S}({Z}_n,f) . \end{align*} \]

Mit einem Grenzübergang und auto folgt Teil 2 der Behauptung. Es fehlt also noch der genau-dann-wenn-Zusammenhang für die Integrierbarkeit.

\(\Leftarrow\)-Richtung:
Wenn \(f\) auf beiden Abschnitten integrierbar ist, dann konvergieren Ober- und Untersummen auf beiden Teilintervallen für die Zerlegungen \(\tilde{Z}_n\) und \(\hat{Z}_n\) jeweils gegen denselben Grenzwert. Das heißt, die kombinierte Folge aus Ober- und Untersummen ist eine Cauchy-Folge und es gibt zu \(\eps/2> 0\) ein \(n_0\), sodass für \(m, n \geq n_0\) gilt \[ \overline{S}(\tilde{Z}_n,f) - \underline{S}(\tilde{Z}_m,f) \leq \frac{\eps}{2} \quad\text{bzw.}\quad \overline{S}(\hat{Z}_n,f) - \underline{S}(\hat{Z}_m,f) \leq \frac{\eps}{2} . \] Nach Addition folgt für die kombinierte Zerlegung \(Z_n\) dann \[ \overline{S}({Z}_n,f) - \underline{S}({Z}_n,f) \leq \frac{\eps}{2} + \frac{\eps}{2} = \eps. \] Damit ist die Bedingung für die Integrierbarkeit auf \([a,c]\) nach auto erfüllt.

\(\Rightarrow\)-Richtung:
Sei \(f\) auf \([a,b]\) integrierbar, dann gibt es nach auto für alle \(\eps > 0\) Unter- und Obersummen mit \[ \overline{S}(Z,f) - \underline{S}(Z',f) \leq \eps. \]

Nach auto wird eine Untersumme größer und eine Obersumme kleiner, wenn wir neue Punkte hinzufügen, daher gilt nach hinzufügen von \(c\) zur Zerlegung weiterhin \[ \overline{S}(Z + c,f) - \underline{S}(Z' + c,f) \leq \eps. \]

Die Treppenfunktion der Obersumme ist überall größer als die Treppenfunktion der Untersumme. Das heißt, auf jedem Teilintervall gilt ebenfalls die Abschätzung und somit auch auf \([a,c]\) und \([c,b]\). Damit folgt nach auto die Integrierbarkeit auf diesen Intervallen.

In auto konnten wir bisher nur die Integrierbarkeit der zusammengesetzten Funktion \(f : [0,2] \to \R\) mit \[ f(x) = \begin{cases} x, &\text{für } x \in [0,1)\\ -x + 4, &\text{für } x \in [1,2] \end{cases} \] auf den Teilintervallen \([0,1]\) und \([1,2]\) zeigen. Aus auto folgt nun, dass \(f\) auch auf dem gesamten Definitionsbereich \([0,2]\) integrierbar ist und mit auto und auto folgt dann \[ \int_0^2 f(x) \dx = \int_0^1 f(x) \dx + \int_1^2 f(x) \dx . \]

Da \(f(1) = -1 + 4 = 3 \neq 1\) gilt, nutzen wir die Treppenfunktion \(\varphi : [0,1] \to \R\) mit \(\varphi(x) = 0\) für \(x \in [0,1)\) und \(\varphi(1) = 2\). Somit lässt sich \(f(x)\) auf \([0,1]\) schreiben als \(f(x) = x + \varphi(x)\). Zusammen mit auto, auto und auto können wir nun den Integralwert bestimmen: \[ \begin{align*} \int_0^2 f(x) \dx &= \int_0^1 f(x) \dx + \int_1^2 f(x) \dx \\ &= \int_0^1 x + \varphi(x) \dx + \int_1^2 -x + 4 \dx\\ &= \int_0^1 x \dx + \int_0^1 \varphi(x) \dx - \int_1^2 x \dx + \int_1^2 4 \dx\\ &= \int_0^1 x \dx + \int_0^1 \varphi(x) \dx - \left(\int_0^2 x \dx - \int_0^1 x \dx\right) + \int_1^2 4 \dx\\ &= \frac{1^2}{2} + 0\cdot(1-0) - \left(\frac{2^2}{2} - \frac{1^2}{2}\right) + 4\cdot(2-1) \\ &= \frac{1}{2} + 0 - \frac{3}{2} + 4 \\ &= 3 . \end{align*} \]

Der Wert eines Integrals wurde bisher nur für die Grenzen \(a < b\) ermittelt. Die folgende Definition erweitert dies auf beliebige Grenzen.

Sei \(f\) integrierbar auf \([a,b]\) und \(c \in [a,b]\), dann definieren wir \[ \begin{align*} \int_b^a f(x) \dx &\mathrel{:=} -\int_a^b f(x) \dx \\ \int_c^c f(x) \dx &\mathrel{:=} 0 \end{align*} \]

Mit diesen Definitionen lässt sich auto auch für beliebige Integrationsgrenzen anwenden. Wenn wir die untere Integralgrenze konstant wählen und die obere als Funktionsvariable verwenden, können wir über das Integral eine Funktion \(F\) definieren: \[ F(x) = \int_a^x f(t) \dt . \] Beachten Sie, dass wir für die Integrationsgrenze und für die Funktionsvariable von \(f\) unterschiedliche Variablen verwenden müssen. Den Zusammenhang von der Integralfunktion \(F\), welche wir als Stammfunktion definieren werden und der integrierten Funktion \(f\) werden wir im nun folgenden Kapitel herleiten.

Der Hauptsatz der Differential- und Integralrechnung

Als Sie in der Schule Integralwerte berechnet haben, wurden diese höchstwahrscheinlich nicht durch eine Verfeinerung von Ober- und Untersummen bestimmt. Aus der Schule wissen Sie vermutlich schon/noch, dass die Integration so etwas wie die Umkehrung der Ableitung ist: Wenn wir eine Funktion \(F\) finden, deren Ableitung die zu integrierende Funktion \(f\) ist, also \(F'(x) = f(x)\), dann können wir den Integralwert mittels

\[\int_a^b f(x) \dx = F(b) - F(a)\]

bestimmen. Wenn Sie dies mit Ihrer mittlerweile hoffentlich gut ausgeprägten mathematischen Skepsis betrachten, wird Ihnen vielleicht auffallen, wie wenig offensichtlich dieser Zusammenhang ist. Was haben Ableitungen mit Flächen unter Funktionsgraphen zu tun? Warum können wir das Integral einer beliebig komplizierten Funktion \(f\) über einem beliebig großen Intervall \([a,b]\) exakt bestimmen, indem wir nur zwei Werte einer Funktion \(F\) an den Intervallgrenzen voneinander abziehen?

Der Satz, der diesen Zusammenhang beschreibt, wird als Hauptsatz der Differential- und Integralrechnung oder auch als Fundamentalsatz der Analysis bezeichnet. Er bekam einen so bedeutsam klingenden Namen, weil er zwei fundamentale Themengebiete der Analysis, welche auf den ersten Blick keinen Zusammenhang zu haben scheinen, miteinander in Beziehung setzt. In diesem Kapitel werden wir diesen Satz nun beweisen. Dafür benötigen wir zunächst einen dritten Mittelwertsatz (siehe auch auto und auto).

Sei \(f: [a,b] \to \R\) integrierbar und seien \(m\) und \(M\) eine untere bzw. obere Schranke von \(f\), also \(\forall x \in [a,b] \gilt m \leq f(x) \leq M.\) Dann gilt \[ m(b-a) \;\le\; \int_a^b f(x) \dx \;\le\; M(b-a) . \]

Ist \(f\) außerdem stetig, dann existiert ein \(c \in (a,b)\) mit \[ \int_a^b f(x) \dx = (b-a) f(c) . \]

Beweis

Integration der Ungleichungen \(m \leq f(x) \leq M\) ergibt mit auto den ersten Teil der Behauptung: \[ \int_a^b m \dx \;=\; m(b-a) \;\le\; \int_a^b f(x) \dx \;\leq\; \int_a^b M \dx \;=\; M(b-a) . \]

Seien nun \[ \begin{align*} m &= \min\set{f(x) \mid x \in [a,b]} ,\\ M &= \max\set{f(x) \mid x \in [a,b]} ,\\ I &= \int_a^b f(x) \dx . \end{align*} \] Die Werte \(m\) und \(M\) werden nach auto an zwei Punkten \(x_1 < x_2 \in [a,b]\) angenommen. An welchem der beiden jeweils min/max angenommen werden, ist für den weiteren Beweis irrelevant.

Aufgrund des ersten Teil des Satzes gilt \[ m(b-a) \leq I \leq M(b-a) \quad \Leftrightarrow \quad m \leq \frac{1}{b-a}I \leq M, \] also \(\frac{1}{b-a}I \in [m,M].\)

Nach dem Zwischenwertsatz (auto) nimmt \(f(x)\) auf \((x_1, x_2)\) jeden Wert zwischen \(m\) und \(M\) an. Also existiert ein \(c \in (x_1,x_2) \subseteq [a,b]\) mit \[ f(c) = \frac {1}{b-a}I = \frac{1}{b-a} \int_a^b f(x) \dx ,\] woraus die Behauptung folgt.

Der Mittelwertsatz der Integralrechnung hat auch eine geometrische Bedeutung: \(f(c)\) ist der Wert, den eine konstante Funktion haben müsste, um auf \([a,b]\) den gleichen Integralwert zu erreichen. Dies ist in folgender Abbildung visualisiert, wo die rötliche Integralfläche genauso groß ist wie die blau umrandete Rechteckfläche.

../images/mws-int.svg

In der folgenden Geogebra-App können Sie den Mittelwertsatz interaktiv ausprobieren:

Demo: Mittelwertsatz der Integralrechnung

\(f(c)\) bezeichnet man auch als den Mittelwert der Funktion auf dem Intervall \([a,b]\). Bei einer normalen Mittelwertberechnung endlicher Mengen summieren wir alle Werte auf und teilen durch die Anzahl der Werte. Hier integrieren wir alle Funktionswerte auf (was, wie Sie mittlerweile wissen, auch eine Art unendlich feine Summe darstellt) und teilen anschließend durch die Länge des Integrationsintervalls. Man kann auch gewichtete Funktionsmittelwerte definieren, indem man zusätzlich eine Gewichtsfunktion \(w : [a,b] \to \R_{> 0}\) definiert. Auch hier lässt sich ganz analog eine Verallgemeinerung des Mittelwertsatzes zeigen (siehe z.B. Satz 18.7 in Forsters “Analysis 1”). Darüber definiert sich der gewichtete Funktionsmittelwert als \[ f(c) = \frac{\int_a^b w(x) f(x) \dx}{\int_a^b w(x) \dx}, \] was erneut analog zum endlichen Fall interpretiert werden kann (gewichtete Summe geteilt durch die Summe der Gewichte).

Nun haben wir alles vorbereitet, was wir zum Beweis des Hauptsatzes benötigen. Für den Rest des Kapitels sei \(I \subset \R\) ein aus mindestens zwei Punkten bestehendes offenes, halboffenes oder abgeschlossenes endliches oder unendliches Intervall.

Sei \(f: I \to \R\) eine stetige Funktion und \(c \in I\). Sei außerdem \(F: I \to \R\) für \(x \in I\) definiert als \[ F(x) = \int_c^x f(t) \dt. \]

Dann folgt:

  1. \(F\) ist stetig differenzierbar und es gilt \(F'(x) = f(x)\).

  2. Für beliebige \(a,b \in I\) gilt \(\int\limits_a^b f(t) \dt = F(b) - F(a).\)

Beweis
  1. Für \(h \neq 0\) gilt wegen auto und auto
    \[ \begin{align*} \frac{F(x+h) - F(x)}{h} &= \frac{1}{h} \left( \int_c^{x+h} f(t) \dt - \int_c^{x} f(t) \dt \right) \\ &= \frac{1}{h} \left( \int_x^c f(t) \dt + \int_c^{x+h} f(t) \dt \right) \\ &\stackrel{S.6.21}{=} \frac{1}{h} \int_x^{x+h} f(t) \dt \\ &\stackrel{S.6.24}{=} \frac{1}{h} \left( h f(d_h) \right) \\ &= f(d_h), \end{align*} \] für ein \(d_h \in [x,x+h]\). Im Limes \(h \to 0\) gilt \(d_h \to x\), und da \(f\) stetig ist, gilt auch \(f(d_h) \to f(x)\), und es folgt \[ \begin{align*} \limto{h}{0} \frac{F(x+h) - F(x)}{h} = F'(h) = \limto{h}{0} f(d_h) = f(x). \end{align*} \]

  2. Die Behauptung folgt direkt aus der Additivität des Integrals (auto): \[ F(b) - F(a) \;=\; \int_c^b f(t) \dt - \int_c^a f(t) \dt \;=\; \int_c^b f(t) \dt + \int_a^c f(t) \dt \;=\; \int_a^b f(t) \dt . \]

Man kann sich den Hauptsatz auch wieder anhand einer geometrischen Interpretation plausibel machen. Die Fläche unter dem Graphen von \(f(t)\) im Intervall \([a,x]\) ist \(F(x)\). Wenn wir das \(x\) nun um ein kleines \(h\) nach rechts verschieben, erhalten wir die Fläche \(F(x+h)\). Wenn wir die hinzukommende Fläche als Rechteck approximieren, dann hat dieses Rechteck eine Fläche von \(f(d_h) \cdot h\). Dabei ist \(d_h\) ein beliebiger Wert zwischen \(x\) und \(x+h\) (da wir in auto gezeigt haben, dass beliebige Zwischenwerte für den Grenzwertübergang zum Integral geeignet sind). Es ist also \(F(x+h) \approx F(x) + f(d_h) \cdot h\), wobei die Näherung immer besser wird, je kleiner wir das \(h\) wählen. Wenn wir dies nach \(f(d_h)\) umstellen und den Grenzwert \(h \to 0\) bilden, ergeben sich die restlichen Schritte analog zum Beweis. Dies ist in folgendem Bild veranschaulicht:

../images/hdi.svg

Auch die zweite Aussage ist geometrisch gut verständlich, wenn wir ein \(c < a\) nutzen: Die Fläche über \([c,b]\) ergibt sich als Summe der Flächen über \([c,a]\) und \([a,b]\) und umgekehrt erhalten wir die Fläche über \([a,b]\), wenn wir die anderen beiden voneinander subtrahieren.

Zuletzt definieren wir uns die Funktion \(F\) noch als Stammfunktion und zeigen ein Beispiel.

Sei \(f: [a,b] \to \R\). Eine Funktion \(F(x)\) mit der Eigenschaft \(F'(x) = f(x)\) auf \([a,b]\) nennen wir Stammfunktion oder unbestimmtes Integral von \(f(x)\). Wir schreiben dafür auch abkürzend \[F(x) = \int f(x) \dx .\]

Wir führen außerdem folgende Kurzschreibweise ein: \[\left[ F(x) \right]_a^b \mathrel{:=} F(b) - F(a).\]

Manchmal sieht man auch die Schreibweise \[ F(x) \Big|_a^b = F(b) - F(a), \] wobei hier bei längeren Funktionsvorschriften manchmal nicht ganz klar ist, wo der Ausdruck der Stammfunktion beginnt und wo er endet, was durch die oben eingeführte Klammerschreibweise klarer ist.

Wenn \(F(x)\) eine Stammfunktion von \(f\) ist, dann ist offensichtlich auch \(F(x)+c\) für eine beliebige Konstante \(c \in \R\) eine Stammfunktion von \(f\). In der Regel bestimmen wir aber einfach eine Stammfunktion von \(f\), da für die Integralbestimmung nach dem zweiten Teil des Hauptsatzes die Wahl der Konstante irrelevant ist.

Wir haben in auto bereits gesehen, dass für \(F(x) = \ln(x)\) mit \(x > 0\) gilt \(F'(x) = f(x) = \frac{1}{x}\). Für \(a, b > 0\) folgt damit \[ \int_a^b \frac{1}{x} \dx = F(b) - F(a) = \left[ \ln(x) \right]_a^b = \ln(b) - \ln(a) = \ln\of{ \frac{b}{a}} . \]

Da wir nun das Integrieren und das Differenzieren in Beziehung gesetzt haben, können wir im nächsten Kapitel unsere bekannten Ableitungsregeln nutzen, um damit zwei wichtige Integrationstechniken herzuleiten.

Die Kunst des Integrierens

Im Gegensatz zum Differenzieren, bei dem wir auch noch so kompliziert verschachtelte Funktionen (mit genügend Zeit und Lust) problemlos ableiten können, ist das Integrieren in den meisten Fällen nicht nur ein einfaches Abarbeiten von Regeln. Man hört auch oft Sätze wie “Differenzieren ist Handwerk, Integrieren ist Kunst!”. Trotzdem haben natürlich alle Künstler*innen gewisse Techniken, welche ihnen bei der Erschaffung eines Meisterwerks helfen, und diese wollen wir Ihnen hier natürlich auch für das Kunstwerk der Integration beibringen.

Dabei nutzen wir im Wesentlichen den Hauptsatz (auto) aus dem letzten Kapitel zusammen mit den Ableitungsregeln aus auto. Wenn wir die Stammfunktion einer Funktion kennen, so können wir das bestimmte Integral durch Auswertung der Stammfunktion einfach bestimmen. Daher ist die erste “Technik” das simple Erstellen einer Ableitungsliste für die häufigsten Funktionen, die uns durch den Hauptsatz umgekehrt als Stammfunktionsliste dient. Wir zeigen hier eine kleine Auswahl, aber zögern Sie nicht, diese um eigene Einträge zu ergänzen. Die Richtigkeit der Angaben können Sie selbst durch einfaches Ableiten überprüfen.

\(f(x) = F'(x)\) \(F(x) = \int f(x) \dx\) Definitionsbereich von \(f\)
\(c\) \(cx\) \(\R\) für \(c \in \R\)
\(x^{n}\) \(\frac{1}{n+1}x^{n+1}\) \(\R\text{ für } n \in \N\)
\(\frac{1}{x^n}\) \(-\frac{1}{n-1}\,\frac{1}{x^{n-1}}\) \(\R\setminus\set{0}\) für \(n \in \N \setminus \set{1},\)
\(x^{\alpha}\) \(\frac{1}{\alpha+1}x^{\alpha+1}\) \(\R_{> 0}\) für \(\alpha \in \R\setminus \set{-1}\)
\(\frac{1}{x}\) \(\ln\of{\abs{x}}\) \(\R\setminus \set{ 0}\)
\(e^x\) \(e^x\) \(\R\)
\(a^x\) \(\frac{a^x}{\ln(a)}\) \(\R\) für \(a > 0,a \neq 1\)
\(\ln\of{\abs{x}}\) \(x \cdot \ln\of{\abs{x}}-x\) \(\R\setminus \set{0}\)
\(\frac{1}{1+x^2}\) \(\arctan(x)\) \(\R\)
\(\frac{1}{1-x^2}\) \(\frac{1}{2} \ln\of{\abs{\frac{x+1}{x-1}}}\) \(\R\setminus \set{ -1,1}\)
\(\frac{1}{\sqrt{1+x^2}}\) \(\mathrm{arsinh}(x)\) \(\R\)
\(\frac{1}{\sqrt{1-x^2}}\) \(\arcsin(x)\) \((-1,1)\)
\(\sin(x)\) \(-\cos(x)\) \(\R\)
\(\cos(x)\) \(\sin(x)\) \(\R\)
\(\tan(x)\) \(-\ln\of{\abs{\cos(x)}}\) \(\R\setminus \set{ x = \frac{\pi}{2} + k \cdot \pi \mid k \in \Z}\)

Hierbei sind die Funktionen Arcussinus \(\arcsin(x)\), Arcuscosinus \(\arccos(x)\) und Arcustangens \(\arctan(x)\) die Umkehrfunktionen von Sinus, Cosinus und Tagens, welche oft auch mit \(\mathrm{asin}(x)\), \(\mathrm{acos}(x)\) und \(\mathrm{atan}(x)\) bezeichnet werden. Wir hatten diese Funktionen in auto schon einmal kurz erwähnt. Die Funktion Areasinus hyperbolicus \(\mathrm{arsinh}(x) \mathrel{:=}\ln\of{x+\sqrt{x^2+1}}\) ist die Umkehrfunktion des Sinus hyperbolicus \(\sinh(x)\).

Als Nächstes können wir die Produktregel (auto) für Integrale von Produkten zweier Funktionen anwenden. Wenn wir eine Funktion \((f\cdot g)(x)\) ableiten, ergibt sich mit der Produktregel \[ \left( f \cdot g \right)'(x) = f'(x) g(x) + f(x) g'(x) . \]

Dies können wir nun genauso zur Integralbestimmung nutzen, was den folgenden Satz ergibt:

Seien \(f,g : [a,b] \to \R\) zwei auf \([a,b]\) stetig differenzierbare Funktionen. Dann gilt \[ \int^b_a f(x) g'(x) \dx = \left[ f(x) g(x) \right]_a^b - \int_a^b f'(x) g(x) \dx . \] bzw. in unbestimmter Integralform \[ \int f(x) g'(x) \dx = f(x) g(x) - \int f'(x) g(x) \dx . \]

Beweis

Wenn \(f\) und \(g\) stetig differenzierbar sind, dann ist nach auto und auto auch \(f\cdot g\) stetig differenzierbar. Seien \(H,h : [a,b] \to \R\) zwei Funktionen mit \[ H(x) \mathrel{:=} f(x)g(x) \quad\text{und}\quad h(x) \mathrel{:=} H'(x) . \] Dann ist \(H\) die Stammfunktion von \(h\) und es gilt nach der Produktregel (auto) \[ h(x) = H'(x) = f'(x) g(x) + f(x) g'(x). \]

Daher gilt \[ \begin{align*} \int_a^b f'(x) g(x) \dx + \int_a^b f(x) g'(x) \dx &= \int_a^b \left( f'(x) g(x) + f(x) g'(x) \right) \dx \\ &= \int_a^b h(x) \dx \\ &= \left[ H(x) \right]_a^b \\ &= \left[ f(x)g(x) \right]_a^b . \end{align*} \]

Durch Umstellen nach \(\int_a^b f(x) g'(x) \dx\) ergibt sich die Behauptung.

Partielle Integration ist dann gut einsetzbar, wenn wir ein Produkt aus zwei Funktionen integrieren, von einem der beiden Faktoren die Stammfunktion kennen (\(g\)), und der andere durch Ableiten einfacher wird (\(f\)). In manchen Fällen führt man ein Integral durch partielle Integration auch auf sich selbst zurück (besonders bei den trigonometrischen Funktionen). Beide Varianten werden in den folgenden Beispielen gezeigt.

  1. Berechne \(\int x e^x \dx\) \[ \begin{align*} \int \underbrace{x}_f \underbrace{e^x}_{g'} \dx &= \underbrace{x}_f \underbrace{e^x}_g - \int \underbrace{1}_{f'} \underbrace{e^x}_{g} \dx \\ &= x e^x - e^x \\ &= (x-1) e^x \end{align*} \]

  2. Berechne \(\int x^2 e^x \dx\) \[ \begin{align*} \int \underbrace{x^2}_f \underbrace{e^x}_{g'} \dx &= \underbrace{x^2}_f \underbrace{e^x}_g - \int \underbrace{2x}_{f'} \underbrace{e^x}_g \dx \\ &= x^2 e^x - 2(x-1) e^x \\ &= (x^2 - 2x +2) e^x \end{align*} \]

  3. Berechne \(\int \ln(x) \dx \;\;\) (für ein Intervall aus \(\R_{>0}\)) \[ \begin{align*} \int \ln(x) \dx &= \int \underbrace{\ln(x)}_f \underbrace{1}_{g'} \dx \\ &= \underbrace{\ln(x)}_f \underbrace{x}_g - \int \underbrace{\frac{1}{x}}_{f'} \underbrace{x}_g \dx \\ &= x \ln(x) - \int 1 \dx \\ &= x \ln(x) - x \end{align*} \]

  4. Berechne \(\int \sin^2(x) \dx\) \[ \begin{align*} \int \sin^2(x) \dx &= \int \underbrace{\sin(x)}_f \, \underbrace{\sin(x)}_{g'} \dx \\ &= \underbrace{\sin(x)}_f \underbrace{(-\cos(x))}_g - \int \underbrace{\cos(x)}_{f'} \underbrace{(-\cos(x))}_g \dx \\ &= -\sin(x) \cos(x) + \int \underbrace{\cos^2(x)}_{1 - \sin^2(x)} \dx \\ &= -\sin(x) \cos(x) + \int 1 \dx - \int \sin^2(x) \dx \\ \Rightarrow \int \sin^2(x) \dx &= \frac{1}{2} \left( x - \sin(x) \cos(x) \right) \end{align*} \]

Genauso kann auch aus der Kettenregel eine Integralregel abgeleitet werden, welche wir als Substitutionsregel bezeichnen.

Sei \(f: I \to \R\) eine stetige Funktion und \(g: [a,b] \to \R\) stetig differenzierbar mit \(g([a,b]) \subseteq I\). Dann gilt \[ \int_a^b f\of{g\of{t}} \, g'(t) \dt = \int_{g(a)}^{g(b)} f(x) \dx, \] bzw. in unbestimmter Integralform mit einer Stammfunktion \(F\) von \(f\) \[ \int f\of{g\of{t}} \, g'(t) \dt = F\of{g\of{t}} . \]

Beweis

Die Integrale existieren, weil \(f\), \(g\), \(g'\) und nach auto auch die Komposition \(f(g(t))\) stetig sind.

Sei \(F: I \to \R\) eine Stammfunktion von \(f\), also \(F'(x) = f(x)\) bzw. \(F(x) = \int f(x) \dx\). Nach der Kettenregel (auto) gilt \[ \left( F\of{g\of{t}} \right)' = F'\of{g\of{t}} \, g'\of{t} = f\of{g\of{t}} \, g'\of{t}, \] bzw. in Integralform \[ F\of{g\of{t}} = \int f\of{g\of{t}} \, g'\of{t} \dt, \] woraus mit den Integrationsgrenzen \(a,b \in I\) und einem beliebigen \(c \in I\) folgt \[ \begin{align*} \int_a^b f\of{g\of{t}} \, g'\of{t} \dt &= F\of{g\of{b}} - F\of{g\of{a}} \\ &= \int_c^{g(b)} f(t) \dt - \int_c^{g(a)} f(t) \dt \\ &= \int_{g(a)}^{g(b)} f(x) \dx . \end{align*} \]

Wir wollen \(\int_1^2 \left( 2t - 2 \right)^9 \dt\) bestimmen. Mit \(f(x)=\frac{1}{2} x^9\) und \(g(t)=2t-2\) gilt \(g'(t)=2\), und wir können das Integral wie folgt umformen: \[ \begin{align*} \int_1^2 \left( 2t - 2 \right)^9 \dt &= \int_1^2 f\of{g\of{t}} \, g'(t) \dt \\ &= \int_{g(1)}^{g(2)} f(x) \dx \\ &= \int_0^2 \frac{1}{2} x^9 \dx \\ &= \left[ \frac{1}{2} \frac{1}{10} x^{10} \right]_{0}^{2} \\ &= \frac{1}{20} \left( 2^{10} - 0^{10} \right) \\ &= \frac{512}{10} \end{align*} \]

Mit der verkürzten Schreibweise \(\dg(x) \mathrel{:=} g'(x)\dx\) lässt sich die Substitutionsregel auch schreiben als \[ \int f\of{g\of{x}} \dg(x) = F\of{g\of{x}} . \]

Dies ist besonders leicht zu merken, da man hier lediglich das \(x\) einer herkömmlichen Integration durch \(g(x)\) ersetzt. Außerdem ergibt sich daraus die Schreibweise für die Ableitung (siehe auto), wenn wir \(\dx\) etwas unsauber wie eine Konstante dividieren: \[ \dg(x) = g'(x) \dx \quad\Leftrightarrow\quad \frac{\dg(x)}{\dx} = g'(x). \] Die Abhängigkeit von \(x\) vernachlässigen wir dabei oft und schreiben \(\dg\) anstellen von \(\dg(x)\).

Die Wahl einer geeigneten Substitution kann den Weg zu einer Lösung stark vereinfachen, wobei eine falsche Wahl das Integral auch noch weiter verkomplizieren kann. Daher ist es nie verkehrt, mehrere Substitutionen für dasselbe Integral auszuprobieren, um ein besseres Gefühl dafür zu bekommen. Letztendlich gibt es hier keine klaren Regeln, wann welche Substitution zum Erfolg führt. Stattdessen ist es eher eine Mischung aus Intuition, Glück und Übung.

  1. Wir wollen \(\int_1^2 \left( 2t - 2 \right)^9 \dt\) bestimmen.

    Wir substituieren \(g:=2t-2\), nutzen also die innere Funktion \(g(t) = 2t-2\). Damit ergibt sich \(\dg(t) = 2 \dt\), also \(\frac{1}{2}\dg = \dt\). Für die Grenzen ergibt sich \(g(1) = 0\) sowie \(g(2) = 2\). Insgesamt folgt: \[ \begin{align*} \int_1^2 \left( 2t - 2 \right)^9 \dt &= \int_0^2 g^9 \frac{1}{2} \dg \\ &= \left[ \frac{g^{10}}{2 \cdot 10} \right]_{0}^{2} \\ &= \frac{1}{20} \left( 2^{10} - 0^{10} \right) \\ &= \frac{512}{10} \end{align*} \]

  2. Wir wollen \(\int \tan(t) \dt = \int \frac{\sin(t)}{\cos(t)} \dt\) bestimmen.

    Wir substituieren \(\cos(t) = g\), also \(\dg = -\sin t \dt\). Damit ergibt sich: \[ \begin{align*} \int \tan(t) \dt &= \int \frac{\sin(t)}{\cos(t)} \dt \\ &= \int \frac{1}{\cos(t)} \, \underbrace{\sin(t) \dt}_{=-\dg} \\ &= -\int \frac{1}{g} \dg \\ &= -\ln\of{\abs{g}} \\ &= -\ln\of{\abs{\cos(t)}} . \end{align*} \]

Unter bestimmten Voraussetzungen bieten sich bestimmte Substitutionen besonders an, woraus wir die folgenden Regeln ableiten können.

  1. \(\displaystyle \int f(ax+b) \dx = \frac{1}{a} F(ax+b) \quad \left(\text{mit } F'(x) = f(x)\right)\)

  2. \(\displaystyle \int f(x) f'(x) \dx = \frac{1}{2} f^2 (x)\)

  3. \(\displaystyle \int \frac{f'(x)}{f(x)} \dx = \ln\of{\abs{f(x)}}\)

Beweis als Übung
  1. \(\displaystyle \int \ln(4x) \dx = \frac{1}{4} \left( 4x \left( \ln(4x) - 1 \right) \right) = x \left( \ln(4x)-1 \right)\)

    Hierbei wurde Vereinfachung (a) mit \(F(x) = x\ln(x)-x = x(\ln(x) - 1)\) gewählt, da \(F'(x) = \ln(x)\).

  2. \(\displaystyle \int \underbrace{\sin(x)}_{f(x)} \, \underbrace{\cos(x)}_{f'(x)} \dx = \frac{1}{2} \sin^2(x)\)

    Hierbei wurde Vereinfachung (b) verwendet.

  3. \(\displaystyle \int \frac{1}{x \ln(x)} \dx = \int \frac{\frac{1}{x}}{\ln(x)} \dx = \ln(\abs{\ln(x)})\)

    Hierbei wurde Vereinfachung (c) verwendet. Beachten Sie, dass das Integral nur für \(x>0\) definiert ist, weswegen der Betrag im inneren Logarithmus nicht genutzt werden muss.

In manchen Fällen kann es auch sinnvoll sein, einen Ausdruck im Integranden nicht durch eine Variable (wie z.B. \(g = 3t + 1\)) zu ersetzen, sondern umgekehrt die Integrationsvariable als Funktion zu definieren. Dafür betrachten wir das folgende Beispiel. Dort zeigen wir außerdem, dass sich der Wert von \(\pi\) auch mit unserer Definition (als erste Nullstelle des Cosinus, siehe auto) als die Fläche des Einheitskreises herausstellt.

Der Graph der Funktion \(f(x) = \sqrt{1 - x^2}\) beschreibt für \(x \in [-1,1]\) einen Halbkreis mit Radius \(r = 1\), da \[x^2 + f(x)^2 = x^2 + 1 - x^2 = 1.\] Daher sollte gelten \[\int_{-1}^1 f(x) \dx = \frac{\pi}{2}.\]

Wir nutzen die Substitution \(x = \sin(u)\), woraus folgt \(\dx = \mathrm{d} \sin(u) = \cos(u) \du\), bzw. \(u(x) = \arcsin(x)\). Es gilt für die Grenzen \(u(-1) = -\pi/2\) und \(u(1) = \pi/2\). Damit ergibt sich also \[ \begin{align*} \int_{-1}^1 \sqrt{1 - x^2} \dx &= \int_{-\pi/2}^{\pi/2} \sqrt{1 - \sin^2(u)} \, \mathrm{d}\sin(u) \\ &= \int_{-\pi/2}^{\pi/2} \sqrt{\cos^2(u)} \, \cos(u) \du \\ &= \int_{-\pi/2}^{\pi/2} \cos^2(u) \du . \end{align*} \]

Es gilt außerdem \[ \cos^2(u) = \left( \frac{e^{\i u} + e^{-\i u}}{2} \right)^2 = \frac{1}{4}(e^{2 \i u} + 2 + e^{-2 \i u}) = \frac{1}{2}(\cos(2u) + 1), \] womit weiter folgt \[ \begin{align*} \int_{-\pi/2}^{\pi/2} \cos^2(u) \du &= \int_{-\pi/2}^{\pi/2} \frac{1}{2} \left( \cos(2u) + 1 \right) \du \\ &= \left[ \frac{1}{2} \left( \frac{1}{2}\sin(2u) + u \right) \right]_{-\pi/2}^{\pi/2} \\ &= \frac{1}{2} \left(0 + \pi/2 - (0 - \pi/2) \right) \\ &= \frac{\pi}{2}. \end{align*} \]

Bei der Integration rationaler Funktionen zerlegt man diese durch Polynomdivision und Partialbruchzerlegung in Polynome und Restbrüche. Diese kann man dann einzeln deutlich einfacher integrieren. Durch Substitutionen können auch viele andere Funktionen auf rationale Funktionen zurückgeführt werden, wie das folgende Beispiel zeigt.

Das Integral \(\displaystyle \int \frac{e^{3x}+3}{e^x +1} \dx\) soll bestimmt werden. Mit der Substitution \(t = e^x\) und \(\dt = e^x \dx\) ergibt sich daraus das Integral einer rationalen Funktion: \[ \int \frac{e^{3x}+3}{e^x +1} \dx = \int \frac{t^3+3}{t(t+1)} \dt = \int \frac{t^3+3}{t^2 + t} \dt \]

Mithilfe einer Polynomdivision zerlegen wir die rationale Funktion in ihren polynomiellen Anteil und den echt gebrochenen Rest (siehe auto): \[ \begin{align*} &\phantom{- }(t^3 + 3) : (t^2 + t) = t - 1 + \frac{t + 3}{t^2 + t}\\ &\underline{-(t^3 + t^2)}\\ &\phantom{-(t^3} -t^2 + 3\\ &\phantom{-(}\underline{-(- t^2 - t)}\\ &\phantom{-(t^3 + t^2) -} t + 3 \end{align*} \]

Damit ist \(\frac{t + 3}{t( t + 1)}\) echt gebrochen rational (Polynomgrad im Zähler \(<\) Polynomgrad im Nenner).

Mittels einer Partialbruchzerlegung zerlegen wir diesen Rest in Brüche mit linearem Nenner: \[ \frac{t+3}{t(t+1)} = \frac{A}{t} + \frac{B}{t+1} = \frac{A(t+1) + Bt}{t(t+1)} = \frac{(A+B)t + A}{t(t+1)} . \]

Damit \((A+B)t + A = t + 3\) gilt, muss \(A = 3\) und \(B = -2\) gelten, es folgt also \[ \frac{t+3}{t(t+1)} = \frac{3}{t} - \frac{2}{t+1}. \]

Die Summanden der so zerlegten rationalen Funktion können wir nun integrieren. \[ \begin{align*} \int \frac{t^3+3}{t(t+1)} \dt &= \int (t-1) \dt + \int \frac{3}{t} \dt - \int \frac{2}{t+1} \dt \\ &= \frac{1}{2} t^2 - t + 3 \ln\of{\abs{t}} - 2 \ln\of{\abs{t+1}} \end{align*} \]

Mit der Rücksubstitution \(t = e^x\) ergibt sich das gesuchte unbestimmte Integral \[ \int \frac{e^{3x}+3}{e^x +1} \dx = \frac{1}{2} e^{2x} - e^x + 3x - 2 \ln(e^x+1) . \]

Auch wenn wir für viele Funktionen eine Stammfunktion finden können, die aus elementaren Funktionen (siehe auto) zusammengesetzt ist, funktioniert das nicht für jeden Integranden. Typische Beispiele sind die Fehlerfunktion \(\mathrm{erf}\) und der Integralsinus \(\mathrm{Si}\), die definiert sind als \[ \begin{align*} \mathrm{erf}(x) &:= \frac{2}{\sqrt{\pi}} \int_0^x e^{-t^2} \dt , \\ \mathrm{Si}(x) &:= \int_0^x \frac{\sin(t)}{t} \dt . \end{align*} \] Beide Funktionen lassen sich nicht als Kombination elementarer Funktionen schreiben, obwohl der Integrand eine solche Kombination darstellt. Die Integralwerte müssen hier also numerisch angenähert werden, wie im vorangegangenen Kapitel gezeigt.

Uneigentliche Integrale

Bisher haben wir das Integral in auto nur für kompakte Intervalle \([a,b]\) definiert. Außerdem umfasst die Definition nur Funktionen, die auf diesem Intervall beschränkt sind. Dies wollen wir nun erweitern, um auch unbeschränkte Funktion sowie auch über uneigentliche Intervalle (z.B. \([0,\infty)\)) integrieren zu können. Auch hier hilft uns wieder eine Grenzwertbestimmung: Wir bestimmen erst das Integral für ein kompaktes Intervall und bilden dann den Limes gegen die uneigentliche Grenze (oder die Stelle der Unbeschränktheit).

Sei \(f : [a, \infty) \to \R\) eine über jedes Intervall \([a,c]\) für \(a<c<\infty\) integrierbare Funktion. Dann definieren wir das uneigentliche Integral als \[ \int_a^\infty f(x) \dx \mathrel{:=} \liminf{c} \int_a^c f(x) \dx, \] falls der Grenzwert existiert. In diesem Fall sagen wir auch, dass das Integral konvergiert (oder anderenfalls divergiert).

Analog definieren wir das uneigentliche Integral für eine Funktion \(f : (-\infty, a] \to \R\), welche auf \([c,a]\) für \(-\infty < c < a\) integrierbar ist, als \[ \int_{-\infty}^a f(x) \dx \mathrel{:=} \limto{c}{-\infty} \int_c^a f(x) \dx . \]

Für das Integrationsintervall \((-\infty, \infty)\) definieren wir das uneigentliche Integral für ein beliebiges \(c \in \R\) als \[ \int_{-\infty}^\infty f(x) \dx \mathrel{:=} \int_{-\infty}^c f(x) \dx + \int_c^\infty f(x) \dx , \] wobei beide Integrale auf der rechten Seite existieren müssen, damit das uneigentliche Integral konvergiert.

  1. Berechne \(\int_0^\infty e^{-x} \dx\) \[ \begin{align*} \int_0^\infty e^{-x} \dx &= \liminf{c} \int_0^c e^{-x} \dx \\ &= \liminf{c} \left[ -e^{-x} \right]_0^c \\ &= \liminf{c} \left(1-e^{-c}\right) = 1 \end{align*} \] Das uneigentliche Integral existiert damit und ist konvergent.

  2. Berechne \(\int_1^\infty \frac{1}{x^\alpha} \dx\) \[ \begin{align*} \int_1^\infty \frac{1}{x^\alpha} \dx &= \liminf{c} \int_1^c \frac{1}{x^\alpha} \dx \\ &= \liminf{c} \left[ \frac{1}{1-\alpha} x^{1-\alpha} \right]_1^c \\ &= \liminf{c} \frac{c^{1-\alpha}-1}{1-\alpha} \\ &= \begin{cases} \frac{1}{\alpha -1} & \text{für } \alpha >1 \;\;\text{(konvergent)} \\ \infty & \text{für } \alpha <1 \;\;\text{(divergent)} \end{cases} \end{align*} \] Für \(\alpha=1\) siehe nächstes Beispiel.

  3. Berechne \(\int_1^\infty \frac{1}{x} \dx\) \[ \begin{align*} \int_1^\infty \frac{1}{x} \dx &= \liminf{c} \int_1^c \frac{1}{x} \dx \\ &= \liminf{c} \left[ \ln(x) \right]_1^c \\ &= \liminf{c} \ln(c) \\ &= \infty \end{align*} \] Das Integral divergiert, d.h., es existiert nicht.

  4. Berechne \(\int_{-\infty}^\infty \frac{1}{1+x^2} \dx\) \[ \begin{align*} \int_{-\infty}^\infty \frac{1}{1+x^2} \dx &= \limto{c}{-\infty} \int_c^0 \frac{1}{1+x^2} \dx + \limto{c}{ \infty} \int_0^c \frac{1}{1+x^2} \dx \\ &= \limto{c}{-\infty} \left[ \arctan(x) \right]_c^0 + \limto{c}{ \infty} \left[ \arctan(x) \right]_0^c \\ &= -\limto{c}{-\infty} \arctan(c) + \limto{c}{ \infty} \arctan(c) \\ &= -\left( -\frac{\pi}{2} \right) + \frac{\pi}{2} \\ &= \pi \end{align*} \] Das uneigentliche Integral existiert damit und ist konvergent.

  5. Berechne \(\int_0^\infty \sin(x) \dx\) \[ \begin{align*} \int_0^\infty \sin(x) \dx &= \liminf{c} \int_0^c \sin(c) \dx \\ &= \liminf{c} \left[ -\cos(x) \right]_0^c \\ &= \liminf{c} \left( -\cos(c) + 1 \right) \end{align*} \] Der Grenzwert existiert nicht, damit ist das Integral divergent.

Achtung: Im Allgemeinen gilt \[ \int_{-\infty}^\infty f(x) \dx \;\neq\; \liminf{c} \int_{-c}^c f(x) \dx , \] da in der Definition gefordert wird, dass beide Grenzwerte \(\int_{-\infty}^c f(x) \dx\) und \(\int_c^\infty f(x) \dx\) existieren müssen. Ein Gegenbeispiel ist \(\int_{-\infty}^\infty x \dx\): Für den ersten Grenzwert gilt \[ \liminf{c} \int_{-c}^c x \dx \;=\; \liminf{c} \left[ \frac{1}{2} x^2 \right]_{-c}^c \;=\; 0, \] aber das uneigentliche Integral \[ \int_{-\infty}^\infty x \dx \;=\; \int_{-\infty}^0 x \dx + \int_0^\infty x \dx \] existiert nicht, da jedes Teilintegral divergiert.

Als Nächstes weiten wir die Integraldefinition auch auf beliebige offene oder halboffene Integrale aus, wobei wir nun nicht mehr fordern, dass die Funktion auf dem jeweiligen Intervall beschränkt ist.

Sei \(f : (a,b) \to \R\), mit \(-\infty \le a < b \le \infty\), auf jedem kompakten Intervall \([\alpha,\beta] \subset (a,b)\) integrierbar. Sei \(c \in (a,b)\) beliebig gewählt.

Dann definieren wir \[ \begin{align*} \int_c^b f(x) \dx &\mathrel{:=} \llimto{\beta}{b} \int_c^\beta f(x) \dx,\\[0.5em] \int_a^c f(x) \dx &\mathrel{:=} \rlimto{\alpha}{a} \int_\alpha^c f(x) \dx \\[0.5em] \int_a^b f(x) \dx &\mathrel{:=} \int_a^c f(x) \dx + \int_c^b f(x) \dx \end{align*} \] falls die jeweiligen Grenzwerte existieren.

Interessant sind in der vorherigen Definition Funktionen, für die \(\rlimto{x}{a} f(x) = \pm \infty\) und \(\llimto{x}{b} f(x) = \pm \infty\).

  1. Berechne \(\int_0^1 \frac{1}{\sqrt{1-x^2}} \dx\) \[ \int_0^1 \frac{1}{\sqrt{1-x^2}}\dx = \llimto{c}{1} \int_0^c \frac{1}{\sqrt{1-x^2}} \dx = \llimto{c}{1} \left[ \arcsin(x) \right]_0^c = \llimto{c}{1} \arcsin(c) = \frac{\pi}{2} \]

  2. Berechne \(\int_0^1 \ln(x) \dx\)
    \[ \int_0^1 \ln(x) \dx = \rlimto{c}{0} \int_c^1 \ln(x) \dx = \rlimto{c}{0} \left[ x \ln(x) - x \right]_c^1 = -1 -\rlimto{c}{0} c \ln(c) = -1 \] Hierfür haben die folgende Nebenrechnung verwendet:
    \[ \rlimto{c}{0} c \ln(c) = \rlimto{c}{0} \frac{\ln(c)}{c^{-1}} \underset{\text{l'Hospital}}{=} \rlimto{c}{0} \frac{c^{-1}}{-c^{-2}} = -\rlimto{c}{0} c = 0 \]

Falls sowohl Integrationsbereich als auch zu integrierende Funktion unbeschränkt sind, dann spaltet man in mehrere uneigentliche Integrale auf und fordert, dass alle uneigentlichen Teilintegrale existieren müssen.

Sei \(f: (0,\infty) \to \R\) mit \(\displaystyle f(x) = \min\set{\ln(x), \frac{\ln(16)}{x^2}} = \begin{cases} \ln(x), & \text{für } x \leq 2,\\ \frac{\ln(16)}{x^2}, & \text{für } x>2. \end{cases}\)

Die Funktion ist stetig, daher integrierbar. \[ \begin{align*} \int_0^\infty f(x) \dx &= \int_0^2 f(x) \dx + \int_2^\infty f(x) \dx \\ &= \rlimto{a}{0} \int_a^2 \ln(x) \dx + \llimto{b}{\infty} \int_2^b \frac{\ln(16)}{x^2} \dx \\ &= \rlimto{a}{0} \left[ x \ln(x) - x \right]_a^2 + \llimto{b}{\infty} \left[-\frac{\ln(16)}{x} \right]_2^b \\ &= 2 \ln(2) - 2 - \underbrace{\rlimto{a}{0} a \ln(a)}_{=0} - \underbrace{\llimto{b}{\infty} \frac{\ln(16)}{b}}_{=0} + \frac{\ln(16)}{2} \\ &= 4\ln(2) - 2 \end{align*} \] Die letzte Umformung gilt, da \(\ln(16) = \ln(2^4) = 4\ln(2)\).

Funktionen im \(\ \R^n\)

Bisher haben wir uns mit Funktionen beschäftigt, die eine einzelne Variable (univariat) auf einen einzelnen Wert (skalarwertig) abgebildet haben. In der Praxis reichen diese univariaten skalarwertigen Funktionen in der Regel nicht aus, um damit reale Problem zu modellieren. Meistens hängt das Ergebnis von mehreren relevanten Faktoren ab, so dass wir mehrere Variablen (multivariat) brauchen. Oft ist das Ergebnis auch nicht nur eine reelle Zahl, sondern ein Vektor oder ein Tupel von Zahlen (vektorwertig).

In diesem Kapitel lernen wir multivariate und vektorwertige Funktionen und Differentialrechnung auf diesen Funktionen kennen. Wir führen zunächst Grundlagen des Vektorraum \(\R^n\) der \(n\)-dimensionalen reellen Zahlen ein und verallgemeinern Begriffe wie Folgen, Konvergenz und Stetigkeit. Danach schauen wir uns parametrische Kurven (univariate vektorwertige Funktionen) und parametrische Flächen (bivariate vektorwertige Funktionen) an, welche interessante Anwendungen z.B. in der Physik oder der Computergraphik haben. Ein wichtiger Anwendungsfall in der Optimierung oder im Machine Learning ist die Minimierung einer skalarwertigen Kostenfunktion (Loss Function), die von mehreren (oft sehr vielen) Variablen abhängt. Wir werden dafür Extremwertbestimmung von multivariaten skalarwertigen Funktionen definieren und ein paar Algorithmen für dieses Problem sehen.

Für den Schritt zu multivariaten und/oder vektorwertigen Funktionen (wir nennen sie einfach mehrdimensionale Funktionen) lassen sich viele Eigenschaften, die wir für “normale” eindimensionale Funktionen kennengelernt haben, in ähnlicher Form definieren oder direkt auf den eindimensionalen Fall zurückführen. Einige Aspekte sind im Mehrdimensionalen allerdings etwas komplexer und auch weniger intuitiv. Im Mathematikstudium würden wir mit der mehrdimensionalen Analysis problemlos ein bis zwei Semester füllen. Im Informatikstudium beschränken wir uns aber auf die für die Informatik wichtigsten Aspekte und werden aus Zeitgründen auch die meisten Beweise nur grob umreißen oder ganz weglassen. Die gezeigten Beispiele beschränken sich oft auf Funktionen mit zwei oder drei Variablen, deren Verhalten man sich geometrisch noch gut vorstellen kann. Die mathematischen Konzepte sind aber für beliebige Dimensionen gültig.

Wir beginnen mit grundlegenden Definitionen des sogenannten Euklidischen Raums, übertragen den Begriff der Stetigkeit auf mehrdimensionale Funktionen und beschäftigen uns anschließend für den Großteil des Kapitels mit der mehrdimensionalen Differenzialrechnung. Die mehrdimensionale Integration würde leider den zeitlichen Rahmen der Veranstaltung sprengen. Hier verweisen wir Sie bei Interesse auf die einschlägigen Lehrbücher.

Grundlagen des \(\ \R^n\)

Wir bezeichnen das \(n\)-fache kartesische Produkt (\(n \in \N\)) der reellen Zahlen als \(n\)-dimensionalen euklidischen Raum, oder kurz \(\R^n\), also \[ \R^n \mathrel{:=} \underbrace{\R \times \R \times \cdots \times \R}_{n\text{-mal}} \;=\; \set{ (x_1, \dots , x_n) \mid x_i \in \R, \text{ für } i = 1, \dots, n}. \]

Die \(n\)-Tupel \(\vec{x} \in \R^n\) bezeichnen wir als Vektoren.

Zur Unterscheidung bezeichnen wir die Elemente aus \(\R^1 = \R\) als Skalare.

Vektoren \(\vec{x}\in\R^n\) werden wir zur leichteren Unterscheidung von Skalaren \(x \in \R\) immer in fettgedruckter Schrift schreiben. \(n\)-dimensionale Vektoren kann man als \[ \text{Spaltenvektoren}\;\;\vector{x_1 \\ \vdots \\ x_n} \qquad\text{oder}\qquad \text{Zeilenvektoren}\;\;\vector{x_1, \dots , x_n} \] auffassen. An vielen Stellen wird es wichtig sein, dass wir diese zwei strikt unterscheiden. Es gilt also \[ \vector{x_1 \\ \vdots \\ x_n} \neq \vector{x_1, \ldots, x_n} . \] Mit \(\vec{x} \in \R^n\) meinen wir stets einen Spaltenvektor. Um im Fließtext Platz zu sparen, nutzen wir die Notation \[ \vec{x} = \vector{x_1 \\ \vdots \\ x_n} = \vector{x_1, \dots , x_n}\T, \] wobei das hochgestellte \(\T\) der Operator für Transponieren ist, der einen Zeilenvektor in einen Spaltenvektor umwandelt und umgekehrt. Dieser Operator wird in unserem Exkurs Matrizen definiert. Wenn Sie auto und auto vergleichen, werden Sie feststellen, dass die Menge der komplexen Zahlen sehr ähnlich zum \(\R^2\) ist, allerdings mit besonderen Operatoren, die die komplexen Zahlen zu einem Körper machen. Im Allgemeinen definieren wir im euklidischen Raum \(\R^n\) nur die folgenden Operationen.

Seien \(\vec{x},\vec{y} \in \R^n\) und \(\lambda \in \R\). Wir definieren die Operationen

  1. Vektoraddition \[ +: \R^n \times \R^n \to \R^n \quad\text{mit}\quad \vec{x} + \vec{y} \mathrel{:=} \vector{x_1+y_1, \dots , x_n + y_n}\T \]
  2. Multiplikation mit Skalar \[ \cdot: \R \times \R^n \to \R^n \quad\text{mit}\quad \lambda \cdot \vec{x} \mathrel{:=} \vector{\lambda x_1, \dots, \lambda x_n}\T \]
  3. Euklidisches Skalarprodukt \[ \cdot: \R^n \times \R^n \to \R \quad\text{mit}\quad \vec{x} \cdot \vec{y} \mathrel{:=} \vec{x}\T\vec{y} = \sum_{k=1}^n x_k y_k = x_1 y_1 + \dots +x_n y_n \]
  4. Euklidische Norm \[ \norm{\;}: \R^n \times \R^n \to \R \quad\text{mit}\quad \norm{\vec{x}} \mathrel{:=} \sqrt{\vec{x}\cdot\vec{x}} = \sqrt{x_1^2 + \dots + x_n^2} \]

Die Schreibweise für eine Funktionsdefinition mit mehreren Argumenten, zum Beispiel \(f : \R \times \R^n \to \R^n\), bedeutet, dass die Funktion \(f\) ein Element aus \(\R\) und ein Element aus \(\R^n\) auf ein Element aus \(\R^n\) abbildet.

Mit dem Ausdruck \(\vec{x}\T\vec{y}\) kann man das Skalarprodukt \(\vec{x}\cdot\vec{y}\) auch als Matrixprodukt schreiben, welches in unserem Exkurs Matrizen definiert wird. Wir empfehlen Ihnen, sich diesen durchzulesen, wenn Sie Ihre Matrixkenntnisse aus der Schule bzw. MafI1 ein wenig auffrischen möchten.

Das Multiplikationszeichen ist durch die obige Definition mehrfach definiert. Man muss daher aus den beiden Faktoren schließen, ob es sich um ein Skalarprodukt zweier Vektoren handelt (\(\vec{x}\cdot\vec{y}\)), um eine Multiplikation mit einem Skalar (\(x \cdot \vec{y}\)), oder einfach nur um eine “normale” Multiplikation reeller Zahlen (\(x \cdot y\)). Beachten Sie, dass man im Allgemeinen keine Multiplikation zwischen zwei Vektoren definiert, die wieder auf einen Vektor gleicher Dimension abbildet. Wichtige Ausnahmen sind das Kreuzprodukt im \(\R^3\) (siehe unten) und die Multiplikation komplexer Zahlen.

Analog zu reellen Zahlen definieren wir die Subtraktion zweier Vektoren durch Addition mit dem negierten Vektor \[ \vec{x} - \vec{y} \;\mathrel{:=}\; \vec{x} + \left(-\vec{y}\right) \;=\; \vector{x_1-y_1, \ldots, x_n-y_n}\T \\ \] und die Division eines Vektors durch einen Skalar als Multiplikation mit dessen Kehrwert \[ \frac{\vec{x}}{\lambda} \;\mathrel{:=}\; \frac{1}{\lambda} \cdot \vec{x} \;=\; \left( \frac{x_1}{\lambda}, \ldots, \frac{x_n}{\lambda} \right)\T . \]

Mit der Vektoraddition (1) und der skalaren Multiplikation (2) wird der \(\R^n\) zu einem Vektorraum — ein Begriff, der Ihnen in MafI-1 bestimmt schon begegnet ist. Da die Vektorraumeigenschaften direkt aus den Körpereigenschaften der reellen Zahlen folgen und wenig überraschend sind, verzichten wir hier auf eine explizite Nennung. Mit dem euklidischen Skalarprodukt (3) und der dadurch induzierten euklidischen Norm (4) bekommen wir den euklidischen Vektorraum \(\R^n\) und können (in beliebigen Dimensionen!) Winkel und Längen messen: Für zwei Vektoren \(\vec{x}, \vec{y} \in \R^n\) sind \(\norm{\vec{x}}\) und \(\norm{\vec{y}}\) ihre Längen, und es gilt \[ \vec{x} \cdot \vec{y} \;=\; \norm{\vec{x}} \, \norm{\vec{y}} \, \cos\of{\angle\of{\vec{x}, \vec{y}}}, \] wobei \(\angle\of{\vec{x}, \vec{y}}\) den Winkeln zwischen den beiden Vektoren \(\vec{x}\) und \(\vec{y}\) bezeichnet. Das Skalarprodukt berechnet also den (skalierten) Cosinus des Winkels, so dass wir über den Arcuscosinus den Winkel bestimmen können: \[ \angle\of{\vec{x}, \vec{y}} \;=\; \arccos\of{\frac{\vec{x}\cdot\vec{y}}{\norm{\vec{x}} \cdot \norm{\vec{y}}}} . \]

Der Vollständigkeit halber erwähnen wir noch das Kreuzprodukt, welches wir aber nur für den Spezialfall \(n=3\) wie folgt definieren können \[ \times : \R^3 \times \R^3 \to \R^3 \quad\text{mit}\quad \vec{x} \times \vec{y} \mathrel{:=} \vector{ x_2 y_3 - x_3 z_2 \\ x_3 y_1 - x_1 z_3 \\ x_1 y_2 - x_2 z_1 } . \] Das Kreuzprodukt \(\vec{z} = \vec{x} \times \vec{y}\) produziert einen Vektor, der sowohl auf \(\vec{x}\) als auch auf \(\vec{y}\) senkrecht steht, für den also gilt \(\vec{z}\cdot\vec{x} = \vec{z}\cdot\vec{y} = 0\) (warum wohl?). Ebenso wie das Skalarprodukt hängt auch das Kreuzprodukt mit dem Winkel zwischen den beiden Vektoren zusammen: \[ \norm{\vec{x} \times \vec{y}} \;=\; \norm{\vec{x}} \, \norm{\vec{y}} \, \sin\of{\angle\of{\vec{x}, \vec{y}}} . \]

Die euklidische Norm ist zwar die Standard-Norm im \(\R^n\), aber es gibt noch die allgemeineren p-Normen, die je nach Anwedung besser geeignet sein können:

Wir definieren für \(p \in [1,\infty)\) und \(\vec{x} \in \R^n\) die p-Norm von \(\vec{x}\) durch eine Funktion \[ \norm{\cdot}_p : \R^n \to \R \quad\text{mit}\quad \norm{\vec{x}}_p \mathrel{:=} \left(\sum_{i=1}^n \abs{x_i}^p \right)^{\frac{1}{p}}. \]

Für \(p=2\) erhalten wir die euklidische Norm \[ \norm{\vec{x}}_2 = \norm{\vec{x}} = \sqrt{x_1^2 + x_2^2 + ... + x_n^2} \] und für \(p=\infty\) die Maximumsnorm oder Tschebyschew-Norm \[ \norm{\vec{x}}_\infty \mathrel{:=} \max\set{\abs{x_1}, \abs{x_2}, \dots, \abs{x_n}} . \]

Für den Namen Tschebyschew gibt es in der Literatur mehrere Schreibweisen, zum Beispiel Tschebyscheff, Chebyshev oder Čebyšev. Sie können zu Übungszwecken beweisen, dass die Maximumsnorm ihren Namen verdient, denn es gilt \[ \liminf{p} \norm{\vec{x}}_p = \norm{\vec{x}}_\infty. \]

Für \(\vec{x} = (-6,3,2)\T\) gilt \[ \begin{align*} \norm{\vec{x}}_1 \;&=\; \abs{-6} + \abs{3} + \abs{2} = 11 \\ \norm{\vec{x}}_2 \;&=\; \sqrt{(-6)^2 + 3^2 + 2^2} = 7 \\ \norm{\vec{x}}_\infty \;&=\; \max\set{\abs{-6}, \abs{3}, \abs{2}} = 6 \end{align*} \]

Besonders die p-Normen für \(p = 1,2\) und die Maximumsnorm kommen in der Praxis häufig zum Einsatz. In der folgenden Demo können Sie mit der \(p\)-Norm für verschiedene Werte von \(p\) experimentieren.

Demo: Einheitskreis bzgl. p-Normen

In dieser Demo werden alle Punkte orange eingefärbt, die von Punkt \(\vec{a}\) weniger als \(r\) entfernt sind. Für \(p=2\) ergeben sich Kreise vom Radius \(r\) um den Punkt \(\vec{a}\). Probieren Sie, was für andere Werte von \(p\) passiert. Solange \(p \geq 1\), ist \(\norm{\cdot}_p\) eine Norm. Für \(p<1\) sind die “Kreise” nicht mehr konvex und \(\norm{\cdot}_p\) ist im mathematischen Sinne keine Norm mehr.

Basiert auf App von Andrew Kepert

Mithilfe der \(p\)-Normen können wir eine Metrik (siehe auto), also eine Abstandsfunktion für zwei Vektoren, definieren:

Für \(p \geq 1\) definiert die Funktion \(d_p:\R^n \times \R^n \to \R\) mit \[ d_p(\vec{x}, \vec{y}) \mathrel{:=} \norm{\vec{x} - \vec{y}}_p \] eine Metrik auf dem \(\R^n\).

Da wir nun eine Möglichkeit haben, Abstände zwischen Vektoren zu bestimmen, können wir analog zum reellen Fall Folgen und Grenzwerte definieren, und damit schließlich die Stetigkeit von Funktionen.

Unter einer Folge im \(\R^n\) versteht man eine Abbildung, bei der jedem \(k \in \N\) ein \(\vec{x}^{(k)} \in \R^n\) zugeordnet wird. Wir schreiben für die Folge auch kurz \(\left(\vec{x}^{(k)}\right)_{k \in \N}\) oder \(\left(\vec{x}^{(k)}\right)\).

Vergleichen Sie die Definition mit auto. Wir haben den Folgenindex \(k\) hier nach oben gestellt, damit dieser nicht mit dem Index für die \(k\)-te Komponente \(x_k\) des Vektors \(\vec{x}\) verwechselt werden kann. So bezeichnet z.B. \(x^{(5)}_2\) die zweite Komponente des fünften Folgengliedes. Wir können nun auch für Folgen im \(\R^n\) einen Grenzwert definieren (vgl. auto).

Eine Folge \(\left(\vec{x}^{(k)}\right)\) heißt konvergent gegen den Grenzwert \(\vec{x} \in \R^n\), wenn gilt \[ \liminf{k} \norm{\vec{x}^{(k)} - \vec{x}} = 0. \]

In dem Fall schreiben wir auch \(\displaystyle \liminf{k} \vec{x}^{(k)} = \vec{x}.\)

Da die Norm wieder auf eine reelle Zahl abbildet, konnten wir hier die vektoriellen Konvergenz auf eine reelle Nullfolge zurückführen. Zu beachten ist, dass wir anstelle des Betrages für reelle Folgen im \(n\)-dimensionalen die euklidische Norm verwenden. Man könnte sich fragen, warum wir keine andere \(p\)-Norm verwendet haben. Es lässt sich aber zeigen, dass eine Folge, welche bezüglich einer Norm gegen einen Grenzwert konvergiert, auch bezüglich jeder anderen Norm gegen denselben Grenzwert konvergiert. Daher werden wir im Folgenden zur Vereinfachung immer die euklidische Norm in Sätzen und Definitionen verwenden. Der Grenzwert ist, falls er existiert, eindeutig. Zur Grenzwertbestimmung können wir die Grenzwerte der einzelnen Vektorkomponenten bestimmen, wie der folgende Satz zeigt.

Eine Folge \(\left( \vec{x}^{(k)} \right)\) im \(\R^n\) konvergiert genau dann gegen einen Grenzwert \(\vec{x}\), wenn jede Komponente \(x^{(k)}_i\) gegen \(x_i\) konvergiert, also \[ \liminf{k} \vec{x}^{(k)} = \vec{x} \quad\Leftrightarrow\quad \forall i \in \set{1, \dots, n} \gilt \liminf{k} x_i^{(k)} = x_i . \]

Beweis

Wir zeigen zuerst, dass folgende Ungleichungskette gilt: \[ 0 \;\leq\; \norm{\vec{x}}_\infty \;\leq\; \norm{\vec{x}} \;\leq\; \sqrt{n} \norm{\vec{x}}_\infty. \tag{*} \]

Einsetzen der Definitionen der Norm und Quadrieren der Ungleichungen liefert \[ 0 \leq \max\set{x_1^2, \dots, x_n^2} \leq \sum_{i=1}^n x_i^2 \leq n \max\set{x_1^2, \dots, x_n^2}. \] Sei \(x_m = \max\set{x_1^2, \dots, x_n^2}\), dann ergibt sich \[ 0 \leq x_m^2 \leq \sum_{i=1}^n x_i^2 \leq n x_m^2, \] womit die Gültigkeit der Aussage offensichtlich ist. Damit lässt sich die Satzaussage jetzt sehr einfach beweisen.

\(\Leftarrow\)-Richtung:
Wenn die Folge komponentenweise konvergiert, dann auch bzgl. der Maximumsnorm, d.h. \[ \liminf{k} \norm{\vec{x^{(k)} - x}}_\infty = 0 . \] Nach Sandwich-Theorem angewendet auf den ersten, dritten und vierten Term der Ungleichung \((*)\) gilt dann auch \[ \liminf{k} \norm{\vec{x^{(k)} - x}} \to 0 , \] so dass die Folge bzgl. der euklidischen Norm (und daher bzgl. allen Normen) konvergiert.

\(\Rightarrow\)-Richtung:
Wenn umgekehrt die Folge konvergiert, also \[ \norm{\vec{x^{(k)} - x}} \to 0 \] gilt, dann folgt nach Sandwich-Theorem angewendet auf den ersten, zweiten und dritten Term der Ungleichung \((*)\) auch \[ \norm{\vec{x^{(k)} - x}}_\infty \to 0. \] Wenn das Betragsmaximum aller Komponenten gegen Null konvergiert, dann konvergiert jede Komponente gegen Null, so dass jede Komponente der Folge konvergiert.

Wir betrachten die Folge \(\vec{x}^{(k)} = \left( \frac{1}{k}, \frac{2k}{3k+4} \right)\T\). Der Grenzwert dieser Folge ist \(\left(0, \frac{2}{3} \right)\T\), da \[ \liminf{k} \frac{1}{k} = 0 \quad\text{und}\quad \liminf{k} \frac{2k}{3k+4} = \frac{2}{3}. \]

Visualisierung

Wie Sie sehen, hat es sich gelohnt, dass wir so viel Zeit mit der eindimensionalen Analysis verbracht haben, denn häufig lassen sich mehrdimensionale Probleme auf eindimensionale Fälle zurückführen. So lassen sich beispielsweise auch ganz analog Cauchy-Folgen im mehrdimensionalen definieren, jede konvergente Folge ist auch hier wieder eine Cauchy-Folge und jede Cauchy-Folge konvergiert im \(\R^n\). Damit ist der \(\R^n\) ein vollständiger metrischer Raum. Bei Interesse können Sie die entsprechenden Definitionen und Beweise in den einschlägigen Lehrbüchern zur Analysis 2 nachlesen.

Als nächstes definieren wir die Stetigkeit für multivariate und vektorwertige Funktionen, die vom \(\R^n\) in den \(\R^m\) abbilden. Vergleichen Sie dies mit auto und auto, um zu sehen, dass es konsistent mit der eindimensionalen Definition ist (für \(n=m=1\)).

Seien \(X \subseteq \R^n\) und \(Y \subseteq \R^m\) zwei Mengen und \(\vec{f}: X \to Y\) eine Abbildung von \(X\) nach \(Y\).

Wir nennen \(\vec{f}\) stetig in \(\vec{a} \in X\), wenn für jede gegen \(\vec{a}\) konvergente Folge \(\left( \vec{x}^{(k)} \right)\) mit \(\vec{x}^{(k)} \in X\) gilt \[ \liminf{k} \vec{f}\of{ \vec{x}^{(k)} } = \vec{f}(\vec{a}).\]

Wir nennen \(\vec{f}\) stetig, wenn \(\vec{f}\) stetig in jedem \(\vec{a} \in X\) ist.

Wir nutzen übrigens auch für vektor- und skalarwertige Funktionen die optische Unterscheidung, dass wir erstere fett drucken (\(\vec{f}\)) und letztere nicht (\(f\)). Auch das \(\eps\)-\(\delta\)-Kriterium der Stetigkeit auto können wir auf mehrdimensionale Funktionen übertragen, wenn wir die darin vorkommenden Beträge durch Normen ersetzen:

Seien \(X \subseteq \R^n\) und \(Y \subseteq \R^m\) zwei Mengen und \(\vec{f}: X \to Y\) eine Abbildung von \(X\) nach \(Y\).

Die Funktion \(\vec{f}\) ist genau dann im Punkt \(\vec{a} \in X\) stetig, wenn \[ \forall \eps > 0 \; \exists \delta > 0 \; \forall \vec{x} \in X \gilt \norm{\vec{x}-\vec{a}} < \delta \;\folgt\; \norm{\vec{f}(\vec{x})-\vec{f}(\vec{a})} < \eps . \]

Da wir Grenzwerte komponentenweise betrachten können und für die reellwertigen Grenzwerte der Komponenten die bekannten Rechenregeln für Grenzwerte und stetige Funktionen (auto bzw. auto) gelten, können wir auch im Mehrdimensionalen die Stetigkeit der Komponenten auf die Stetigkeit der gesamten Funktion übertragen, wie das folgende Beispiel zeigt.

Sei \(\vec{f}: \R^2 \to \R^2\) mit \[ \vec{f}(\vec{x}) = \vec{f}(x,y) = \vector{ \frac{xy}{1+x^2+y^2} \\ \exp(x) \sin(y) } . \]

Wir wollen zeigen, dass \(\vec{f}\) stetig ist. Dazu sei \(\left( \vec{x}^{(k)} \right)\) eine beliebige Folge, die gegen \(\vec{a} = (x_a, y_a)\T\) konvergiert. Wir bezeichnen mit \((x_k)\) und \((y_k)\) die reellen Folgen der beiden Komponenten, d.h., \(\vec{x}^{(k)} = \left( x_k, y_k \right)\T\). Nach Satz auto können wir die Grenzwerte der beiden Komponenten \(f_1\) und \(f_2\) von \(\vec{f}\) einzeln betrachten, um den Grenzwert zu bestimmen: \[ \begin{align*} \liminf{k} f_1\of{\vec{x}^{(k)}} &= \liminf{k} \frac{x_k y_k}{1 + x_k^2 + y_k^2} \\ &= \frac{ \left(\liminf{k} x_k \right) \left(\liminf{k} y_k \right) }{ 1 + \left(\liminf{k} x_k^2 \right) + \left(\liminf{k} y_k^2 \right) } \\ &= \frac{a_x a_y}{1 + a_x^2 + a_y^2} \\ &= f_1(\vec{a}) \end{align*} \] und \[ \begin{align*} \liminf{k} f_2\of{\vec{x}^{(k)}} &= \liminf{k} \exp(x_k) \sin(y_k) \\ &= \left(\liminf{k} \exp(x_k) \right) \left(\liminf{k} \sin(y_k) \right) \\ &= \exp(a_x) \sin(a_y) \\ &= f_2(\vec{a}), \end{align*} \] wobei wir auto ausgenutzt haben, um die Grenzwerte in Summen, Produkte und Quotienten zu ziehen, und die Stetigkeit von \(\exp(x)\), \(\sin(x)\) und \(x^2\) ausgenutzt haben, um die Grenzwertbestimmung durch Einsetzen vorzunehmen.

Damit folgt insgesamt \[ \liminf{k} \vec{f}\of{\vec{x}^{(k)}} = \vec{f}(\vec{a}) \] und somit die Stetigkeit von \(\vec{f}.\)

Wie das letzte Beispiel zeigt, ist der Stetigkeitsnachweis kombinierter stetiger Funktionen sehr ähnlich zum eindimensionalen Fall. Anders sieht es bei stückweise definierten Funktionen aus, hier ist der Stetigkeitsnachweis im mehrdimensionalen deutlich schwieriger, da wir uns aus unendlich vielen Richtungen dem Grenzwert nähern können (und nicht nur aus zwei Richtungen, vgl. auto).

Sei \(f : \R^2 \to \R\) mit \[f(\vec{x}) = f(x,y) = \begin{cases} \frac{xy}{x^2 + y^2} & \text{ für } \vec{x} \neq \vec{0},\\ 0 & \text{ sonst.} \end{cases} \] Für \(\vec{x} \neq \vec{0}\) weist man die Stetigkeit leicht wie im letzten Beispiel nach, da die Funktion hier nur aus stetigen Anteilen besteht.

Für \(\vec{x} = \vec{0}\) ist die Funktion nicht stetig, denn für Funktionswerte der Nullfolge \(\vec{x}^{(k)} = (1/k, 1/k)\T\) ergibt sich \[ \liminf{k} f\of{\vec{x}^{(k)}} \;=\; \liminf{k} \frac{\frac{1}{k} \cdot \frac{1}{k}}{\frac{1}{k^2} + \frac{1}{k^2}} \;=\; \liminf{k} \frac{\frac{1}{k^2}}{2\frac{1}{k^2}} \;=\; \frac{1}{2} \;\neq\; f(0,0) = 0 . \]

Dies ist nicht das einzige Gegenbeispiel: Wählt man z.B. \(\vec{x}^{(k)}= (1/k, 2/k)\T\), dann ist \(\liminf{k} f(\vec{x}^{(k)}) = 2/5\). Je nachdem, aus welcher “Richtung” man sich hier \(\vec{0}\) nähert, ergibt sich ein anderer Grenzwert. Somit ist die Funktion immer unstetig, egal wie der Wert bei \(\vec{0}\) definiert wird.

Visualisierung

Parametrische Kurven und Flächen

In diesem Abschnitt nehmen wir uns die folgenden mehrdimensionalen Funktionstypen vor:

  1. Abbildungen von \(\R\) nach \(\R^n\), welche wir als parametrische Kurven bezeichnen
  2. Abbildungen von \(\R^2 \to \R^n\), welche wir als parametrische Flächen bezeichnen

Bei beiden Funktionstypen interessiert uns besonders der Begriff der Ableitung(en), da diese eine interessante geometrische Bedeutung haben.

Kurven

Beginnen wir also mit der Definition einer Kurve.

Eine stetige Abbildung \(\vec{f}: I \to \R^n,\) wobei \(I \subseteq \R\) ein eigentliches oder uneigentliches Intervall ist, bezeichnen wir als Kurve.

Wir verwenden hier häufig \(t\) als Funktionsargument, da man sich dieses oft als zeitliche Variable vorstellen kann: Zum Zeitpunkt \(t\) befindet sich ein Punkt auf der Kurve am Ort \(\vec{f}(t)\). Als Nächstes definieren wir die Ableitung einer Kurve, die gut zu dieser geometrischen Anschauung passt.

Sei \(\vec{f}: I \to \R^n\) eine Kurve. Wir nennen \(\vec{f}\) differenzierbar, wenn jede Komponente \(f_1(t), \dots, f_n(t)\) differenzierbar ist.

In diesem Fall nennen wir für ein \(t \in I\) den Vektor \[\vec{f}'(t) = \left( f_1'(t), f_2'(t), \dots, f_n'(t) \right)\T\] den Tangentialvektor der Kurve \(\vec{f}\) zum Parameterwert \(t\).

Geometrische Interpretation: Den Tangentialvektor können wir als Limes von Sekanten auffassen: \[ \vec{f}'(t) \;=\; \limto{h}{0} \frac{\vec{f}(t+h) - \vec{f}(t)}{h} . \]

Physikalische Interpretation: Wenn \(\vec{f}(t)\) einen Punkt auf der Kurve zum Zeitpunkt \(t\) beschreibt, dann ist der Tangentialvektor \(\vec{f}'(t)\) der Geschwindigkeitsvektor dieses Punktes zum Zeitpunkt \(t\) und \(\norm{\vec{f}'(t)}\) ist der Betrag der Geschwindigkeit.

Wir wollen nun die Länge einer Kurve bestimmen. Dazu approximieren wir die Kurve zunächst mit mehreren Geradenabschnitten. Die aufsummierte Länge dieser Geradenabschnitte ist eine untere Schranke für die Kurvenlänge. Wenn wir die Abschnitte immer weiter unterteilen ergibt sich im Grenzwert für eine unendlich feine Unterteilung die Kurvenlänge. Sollte Sie dies an unsere Definition von Integralen erinnern, dann können Sie sich gedanklich auf die Schulter klopfen, denn tatsächlich ergibt sich als Endresultat eine Integralformel.

Jede stetig differenzierbare Kurve \(\vec{f}: [a,b] \to \R^n\) ist die Länge der Kurve \[ L = \int_a^b \norm{\vec{f}'(t)}\dt. \]

Anschauliche Begründung

Für einen formalen Beweis sei auf das Lehrbuch “Analysis 2” von Otto Forster verwiesen. Wir versuchen hier nur, die obige Formel anschaulich zu begründen.

Dafür betrachten wir die äquidistante Zerlegungsfolge \[ Z_n = \left(t_0, t_1, ..., t_n\right) = (a, a + h, a + 2j, \dots, b) \] mit \(h = \frac{b-a}{n}\) und \(t_k = a + kh\). Wenn wir die Kurvenpunkt \(\vec{f}(t_i)\) zu einem Polygonzug (oder Streckenzug) verbinden, können wir dessen Länge als Summe der Segmentlängen berechnen: \[ \begin{align*} L(Z_n) &= \sum_{k=0}^{n-1} \norm{\vec{f}(t_{k+1}) - \vec{f}(t_k)}\\ &= \sum_{k=0}^{n-1} \norm{\vec{f}(t_k + h) - \vec{f}(t_k)}\\ &= \sum_{k=0}^{n-1} \norm{\frac{\vec{f}(t_k + h) - \vec{f}(t_k)}{h}} h \end{align*} \] Hier erkennt man schon ganz gut, was beim Grenzübergang \(n \to \infty\) bzw. \(h \to 0\) passiert (nochmal: dies ist kein formaler Beweis):

  1. Aus der Sekantensteigung wird eine Tangentensetigung \[\frac{\vec{f}(t_k + h) - \vec{f}(t_k)}{h} \stackrel{h \to 0}{\longrightarrow} \vec{f}'(t)\]
  2. Aus der Summe der \((n-1)\) Rechtecksflächen der Breite \(h\) wird ein Integral.

Die Kurve \(\vec{f}: [0,2\pi] \to \R^2\) mit \[ \vec{f}(t) = \vector{\cos(t)\\ \sin(t)} \] beschreibt einen Kreis vom Radius \(r = 1\).

Für den Tangentialvektor gilt \[ \vec{f}'(t) = \vector{-\sin(t)\\ \cos(t)}. \]

Die Bogenlänge (bzw. der Kreisumfang) beträgt damit \[ \begin{align*} L &= \int_0^{2\pi} \norm{\vec{f}'(t)}\dt \\ &= \int_0^{2\pi} \sqrt{(-\sin(t))^2 + (\cos(t))^2} \dt \\ &= \int_0^{2\pi} 1 \dt \\ &= 2\pi . \end{align*} \]

Parametrische Flächen

Eine detaillierte Betrachtung allgemeiner vektorwertiger Funktionen, die vom \(\R^n\) in den \(\R^m\) abbilden, geht über den Vorlesungsstoff hinaus. Wir möchten hier nur die Grundidee für die Ableitung einer solchen Funktion möglichst anschaulich einführen und in der Vorlesung ein paar Anwendungsbeispiele zeigen, um eventuell Ihr Interesse für das Thema zu wecken. In der Praxis hat man es beispielsweise mit solchen Funktionen zu tun, wenn man die Eigenschaften von Oberflächen technischer Bauteile untersuchen will. In vielen Bereichen werden an diese Oberflächen sehr hohe Anforderungen gestellt (z.B. in der Luft- und Raumfahrt oder der Automobilbranche). Diese Anforderungen lassen sich in Eigenschaften der Ableitungen von Flächenfunktionen übersetzen. Ein anderes Anwendungsgebiet ist die Texturierung (oder genauer gesagt Parametrisierung) von 3D-Modellen. Hierbei werden Farbwerte einer zweidimensionalen Fläche (der Textur) auf ein dreidimensionales Objekt (das Modell) abgebildet. Wünschenswert sind Texturen, bei denen es zu möglichst wenig Verzerrung bei dieser Abbildung kommt. Diese Verzerrungen lassen sich ebenfalls mit Funktionseigenschaften assoziieren.

Wir Betrachten im Folgenden Beispiele für parameterische Flächen, also Abbildungen vom \(\R^2\) in den \(\R^3\). Für die beiden Koordinaten von \(\vec{x} \in \R^2\) verwendet man häufig die Variablen \(u := x_1\) und \(v := x_2\), und für die Funktion schreiben wir dann entweder \(\vec{f}(\vec{x})\) oder \(\vec{f}(u,v)\).

Die letzten Beispiele zeigen, dass man sich eine parametrische Fläche auch als Kurve vorstellen kann, welche durch den zweiten Parameter variiert wird und dabei die sich ergebende Fläche überstreicht. Also zum Beispiel eine Kurve entlang des Paramters \(u\), bei der sich jeder Punkt entlang einer zweiten Kurve mit Parameter \(v\) bewegt. In diesem Kontext bedeutet die Stetigkeit der Funktion, dass das Parametergebiet bei der Abbildung nicht auseinandergerissen wird, sondern eine zusammenhängende Fläche bleibt.

Wir würden auch gerne die “Knickfreiheit”, also Differenzierbarkeit einer solchen Fläche mathematisch überprüfen können. Durch die Interpretation, dass eine Fläche nichts anderes ist, als die Variation einer Kurve, können wir auch Ableitungen parametrischer Flächen auf Ableitungen parametrischer Kurven zurückführen: Wir halten erst den Parameter \(v\) konstant und bestimmen die Ableitung der sich ergebenden \(u\)-Kurve, was die \(u\)-Tangente ergibt. Anschließend halten wir den Parameter \(u\) konstant und betrachten die Ableitung der sich ergebenden \(v\)-Kurve, was die \(v\)-Tangente ergibt. Die \(u\)- und \(v\)-Tangenten spannen am aktuellen Punkt \(\vec{f}(u,v)\) die Tangentialebene \(T_{\vec{f}}\) von \(\vec{f}\) auf, die eine Verallgemeinerung der Tangente einer univariaten Funktion darstellt: \[ T_{\vec{f}(u,v)}(s,t) \;=\; \vec{f}(u,v) + s \, \vec{t}_u + t \, \vec{t}_v . \]

Die Existenz der einzelnen Tangentialvektoren reicht leider nicht aus, um die “Knickfreiheit” (Differenzierbarkeit) einer solchen Fläche zu garantieren. Allerdings kann man zeigen, dass aus der Stetigkeit aller Einträge der Tangentialvektoren auch die Differenzierbarkeit der Funktion folgt.

Extrema im \(\;\R^n\)

In diesem Kapitel beschäftigen wir uns mit multivariaten skalarwertigen Funktionen \(f \colon \R^n \to \R\), die \(n\) Eingabevariablen \(\vec{x} = (x_1, \dots, x_n)\T\) auf einen Ausgabewert \(f(\vec{x}) = f(x_1, \dots, x_n)\) abbilden. Solche Funktionen werden Ihnen im Studium häufig begegnen, zum Beispiel beim maschinellen Lernen, wo ein Modell an Daten gefittet wird, indem eine Kostenfunktion (oder Loss-Function) \(f\) durch geschickte Wahl der Modellparameter \(x_1, \dots, x_n\) minimiert werden soll. Weitere Beispiele gibt es im Kontext der Optimierung, wo auch entweder (unerwünschte) Kosten minimiert oder ein (gewünschter) Ertrag maximiert werden soll.

Wir sind also an der Bestimmung der Extrema der Funktion \(f(\vec{x})\) interessiert und werden hieraus erneut Bedingungen für erste und zweite Ableitungen definieren. Auch hier kann eine Visualisierung der Funktionen helfen, die Zusammenhänge besser zu verstehen. Aus diesem Grund betrachten wir in diesem Kapitel häufig Funktionen \(f : \R^2 \to \R\), da wir diese noch einfach als Graph (in diesem Fall eine parametrische Fläche) visualisieren können: \[\vec{\Gamma}_f(x,y) = \vector{x\\ y\\ f(x,y)}.\] Dabei werden die Funktionswerte \(f(x,y)\) auf der z-Achse aufgetragen, so dass sich ein Höhenfeld über der x-y-Ebene ergibt. Wie in der folgenden Demo gezeigt, können wir diese Höhenfelder als Fläche, als Höhenlinien (ählich wie bei Geländekarten) und durch Farbkodierungen der z-Werte darstellen.

Demo: Funktion als Höhenfeld plotten

Damit wir die Extrema, also Minima und Maxima, von multivariaten Funktionen bestimmen können, müssen wir diese zunächst definieren. Wir verallgemeiner dafür die Definition von lokalen Extrema univariater Funktionen:

Eine Funktion \(f \colon U \subseteq \R^n \to \R\) nimmt in \(\vec{x} \in U\) ein lokales Maximum (bzw. lokales Minimum) \(f(\vec{x})\) an, wenn ein \(\eps>0\) existiert, sodass \(f(\vec{x}) \geq f(\vec{y})\) (bzw. \(f(\vec{x}) \leq f(\vec{y})\)) für alle \(\vec{y}\) mit \(\norm{\vec{x}-\vec{y}} < \eps.\)

Wenn Sie diese Definition mit auto vergleichen, wird Ihnen wieder auffallen, dass hier lediglich die Beträge durch Normen und die skalaren Variablen durch Vektoren ersetzt wurden. Für \(n = 1\) ergibt sich aus auto der eindimensionale Fall, also auto.

Im univariaten Fall haben wir Extrema bestimmt, indem wir die erste und zweite Ableitung untersucht haben: Die erste Ableitung muss verschwinden (auto), und wenn zusätzlich die zweite Ableitung größer bzw. kleiner als Null ist, dann liegt ein Minimum bzw. Maximum vor (auto). Bei multivariaten Funktionen ist das ganz ähnlich, nur dass wir hier mehrere Variablen haben, nach denen wir die Funktion ableiten können. Wir brauchen also zunächst eine Verallgemeinerung der ersten Ableitung:

Eine Funktion \(f: U \subseteq \R^n \to \R\) ist im Punkt \(\vec{x} = (x_1, x_2, \dots, x_n)\T \in U\) partiell differenzierbar bezüglich der \(i\)-ten Koordinate, falls der Grenzwert \[ \pdiff{f}{x_i}\of{\vec{x}} \mathrel{:=} \limto{h}{0} \frac{f(x_1, \dots, x_{i-1}, x_i + h, x_{i+1}, \dots, x_n) - f(\vec{x})}{h} \] existiert. In diesem Fall heißt der Grenzwert die \(i\)-te partielle Ableitung von \(f\).

Wenn alle partiellen Ableitungen \(\pdiff{f}{x_1}, \dots, \pdiff{f}{x_n}\) für alle \(\vec{x} \in U\) existieren, heißt die Funktion partiell differenzierbar. Sind die partiellen Ableitungen zusätzlich stetig, heißt \(f\) stetig partiell differenzierbar oder \(C^1\)-stetig.

Das Bestimmen von partiellen Ableitungen ist eigentlich ganz einfach. Wenn wir eine univariate Funktion \(f_i : \R \to \R\) definieren mit \[ f_i(\xi) \mathrel{:=} f(x_1, \dots, x_{i-1}, \xi, x_{i+1}, \dots, x_n), \] die von der Funktion \(f\) alle Parameter außer dem \(i\)-ten Parameter \(x_i=\xi\) festhält, dann entspricht die \(i\)-te partielle Ableitung von \(f(\vec{x})\) gerade der herkömmlichen Ableitung von \(f_i(\xi)\): \[ \pdiff{f}{x_i}\of{x_1, \dots, x_n} \;=\; \limto{h}{0} \frac{f_i(x_i + h) - f_i(x_i)}{h} \;=\; f_i'(x_i) . \] Eine Funktion partiell abzuleiten ist also nichts anderes, als alle Parameter bis auf den, nach dem gerade abgeleitet wird, als Konstanten aufzufassen und ansonsten wie bei einer univariaten Funktion zu differenzieren.

Der Wert der \(i\)-ten partiellen Ableitung gibt die Steigung der Tangente an den Funktionsgraphen in Richtung der \(i\)-ten Koordinatenachse an. Das haben wir bei parametrischen Flächen schon in Form der u- und v-Tangenten gesehen, die als partielle Ableitungen der Fläche nach \(u\) und \(v\) definiert waren.

Demo: Partielle Ableitungen

Verschieben Sie den Punkt \(\vec{P}\) und beobachten Sie die beiden Tangenten bzw. die partiellen Ableitungen.

App von Andreas Lindner

Im Gegensatz zu univariaten Funktion folgt bei multivariaten Funktionen aus der partiellen Differenzierbarkeit nicht die Stetigkeit der Funktion. Erst wenn die Funktion stetig partiell Differenzierbar ist, also alle partiellen Ableitungen stetig sind, ist die Funktion auch stetig, hat also keine Sprünge.

Sei \(f: \R^3 \to \R\) mit \(f(x,y,z) = 2x^2 + 3xy + z\). Die partiellen Ableitungen lauten \[ \begin{align*} \pdiff{f}{x}(x,y,z) &= 4x + 3y \\[0.5em] \pdiff{f}{y}(x,y,z) &= 3x \\[0.5em] \pdiff{f}{z}(x,y,z) &= 1 \end{align*} \]

Wenn wir alle partiellen Ableitungen in einen Vektor schreiben, erhalten wir den Gradienten der Funktion \(f\), dessen geometrische Bedeutung wir im nächsten Kapitel kennenlernen werden.

Für eine partiell differenzierbare Funktion \(f: U \subseteq \R^n \to \R\) heißt der Vektor \[ \grad f(\vec{x}) \;\mathrel{:=}\; \vector{ \pdiff{f}{x_1} \\ \vdots \\ \pdiff{f}{x_n} } \in \R^n \] aus allen \(n\) partiellen Ableitungen der Gradient von \(f\) am Punkt \(\vec{x}\).

Auch wenn wir es in diesem Kapitel nicht brauchen, definieren wir der Vollständigkeit halber noch die Verallgemeinerung des Gradienten für multivariate und vektorwertige Funktionen, die sogenannte Jacobi-Matrix:

Für eine partiell differenzierbare Funktion \(\vec{f}: U \subseteq \R^n \to \R^m\) mit Komponenten \(f_1, \dots, f_m\), also \[ \vec{f}(\vec{x}) \;=\; \left( f_1(\vec{x}), \dots, f_m(\vec{x}) \right)\T , \] heißt die \((m \times n)\)-Matrix \[ \mat{J}_{\vec{f}}(\vec{x}) \;\mathrel{:=}\; \begin{pmatrix} \frac{\partial f_1(\vec{x})}{\partial x_1} & \frac{\partial f_1(\vec{x})}{\partial x_2} & \dots & \frac{\partial f_1(\vec{x})}{\partial x_n}\\ \frac{\partial f_2(\vec{x})}{\partial x_1} & \frac{\partial f_2(\vec{x})}{\partial x_2} & \dots & \frac{\partial f_2(\vec{x})}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial f_m(\vec{x})}{\partial x_1} & \frac{\partial f_m(\vec{x})}{\partial x_2} & \dots & \frac{\partial f_m(\vec{x})}{\partial x_n} \end{pmatrix} \] die Jacobi-Matrix von \(\vec{f}\) am Punkt \(\vec{x}\).

Wenn wir die beiden letzten Definitionen vergleichen, fällt auf, dass in der \(i\)-ten Zeile der Jacobi-Matrix gerade der (transponierte) Gradient \(\grad f_i\) der \(i\)-ten Komponente von \(\vec{f}\) steht.

Im Folgenden beschränken wir uns aber wieder auf multivariate skalarwertige Funktionen.

  1. Sei \(f: \R^3 \to \R\) mit \(f(x,y,z) = 2x^2 + 3xy + z\) die Funktion aus dem vorherigen Beispiel. Der Gradient dieser Funktion ist \[\grad f(x,y) = \vector{4x+3y\\ 3x\\ 1} .\]

  2. Sei \(f: \R^n \to \R\) mit \[f(\vec{x}) = \norm{\vec{x}} = \sqrt{\sum_{i=1}^n x_i^2} .\] \(f\) berechnet also den Abstand des Punktes \(\vec{x}\) vom Ursprung bzw. die Länge des Vektors \(\vec{x}\), je nachdem, ob wir \(\vec{x}\) als Punkt oder Vektor auffassen. Am Punkt \(\vec{x}=\vec{0}\) ist die Funktion nicht partiell differenzierbar. Für \(\vec{x}\neq\vec{0}\) ergeben sich (mit Kettenregel) die partiellen Ableitungen \[ \pdiff{f}{x_i} \;=\; \frac{1}{2\norm{\vec{x}}} 2x_i \;=\; \frac{x_i}{\norm{\vec{x}}} . \] und somit der Gradient \[ \grad f(\vec{x}) = \frac{\vec{x}}{\norm{\vec{x}}} . \]

Kommen wir nun zum Zusammenhang zwischen lokalen Extrema und partiellen Ableitungen. Zunächst liefert der folgende Satz eine notwendige Bedingung für ein Extremum (analog zu auto):

Sei \(f: U \subseteq \R^n \to \R\) eine partiell differenzierbare Funktion. Besitzt \(f\) im Punkt \(\vec{x} \in U\) ein lokales Extremum, dann ist \[ \grad f(\vec{x}) = \vec{0} = (0, \dots, 0)\T . \]

Beweis

Definiere die univariaten Funktionen \[ f_i(\xi) \mathrel{:=} f(x_1, \ldots, x_{i-1}, \xi, x_{i+1}, \ldots, x_n) \] für \(i=1,\ldots,n\). Wenn \(f\) in \(\vec{x} = (x_1, x_2, ..., x_i, ..., x_n)\T\) ein lokales Extremum hat, dann haben auch die Teilfunktionen \(f_i\) in \(x_i\) ein lokales Extremum. Nach auto gilt dann \(f_i'(x_i) = 0\). Diese Ableitungen sind aber genau die partiellen Ableitung von \(f\). Es gilt also \[ \forall i \in \set{1, \dots, n} \gilt \pdiff{f}{x_i}(\vec{x}) = f'_i(x_i) = 0 \ \quad\Leftrightarrow\quad \grad f(\vec{x}) = \vec{0} . \]

Genau genommen darf \(\vec{x} \in U\) in der obigen Definition kein Randpunkt von \(U\) sein. Es muss ein \(\eps > 0\) existieren, sodass alle \(\vec{y} \in \R^n\) mit \(\norm{\vec{x} - \vec{y}} < \eps\) auch in \(U\) liegen. An Randpunkten kann ansonsten ein Extremum vorliegen, ohne dass die notwendige Bedingung gilt (daher hatten wir auch in auto ein offenes Intervall verwendet).

  1. Die Funktion \(f : \R^2 \to \R\) mit \(f(x,y) = x^2 + y^2\) nimmt in \((0,0)\) ein lokales (und auch globales) Minimum an, da die Funktion an jeder anderen Stelle strikt positiv ist. Daher muss hier auch die notwendige Bedingung gelten. Wir bestimmen den Gradienten \[\grad f(x,y) = (2x, 2y)\T\] und es gilt wie erwartet \[\grad f(0,0) = (0, 0)\T.\]

    Visualisierung
  2. Wir untersuchen die Funktion \(f : \R^2 \to \R\) mit \(f(x,y) = x^2 - y^2\). Der Gradient ist \[\grad f(x,y) = (2x, -2y)\T\] und verschwindet daher an \((0,0)\). Allerdings nimmt die Funktion in \((0,0)\) kein lokales Extremum, sondern eine Sattelstelle an, wie die Visualisierung zeigt. Dies verdeutlicht, dass die notwendige Bedingung von auto eben nicht hinreichend ist.

    Visualisierung

Man kann sich die notwendige Bedingung auch am Graphen einer Funktion mit zwei Parametern verdeutlichen. Dieser ist, wie schon weiter oben geschrieben, die parametrische Fläche \(\vec{\Gamma}_{f} : \R^2 \to \R^3\) mit \[ \vec{\Gamma}_f(u,v) = \vector{u\\ v\\ f(u,v)}. \] Die Tangentialebene dieser Fläche wird durch die beiden Tangenten in \(u\)- und \(v\)-Richtung aufgespannt. Diese Tangenten werden durch die partiellen Ableitungen nach \(u\) und \(v\) bestimmt: \[ \pdiff{\vec{\Gamma}_f}{u}(u,v) = \vector{1\\ 0\\ \pdiff{f}{u}(u,v)} \qquad\text{und}\qquad \pdiff{\vec{\Gamma}_f}{v}(u,v) = \vector{0\\ 1\\ \pdiff{f}{v}(u,v)} \] Die \(z\)-Komponenten der beiden Tangenten sind die partiellen Ableitungen von \(f\). An einem Extremum verschwinden diese, sodass die Tangentialebene parallel zur xy-Ebene ist. Das kann man in der folgenden Demo-App gut ausprobieren.

Demo: Partielle Ableitungen an Extremstellen

Verschieben Sie den Punkt \(\vec{P}\) nach \((0,0)\) und beobachten Sie die beiden Tangenten bzw. die partiellen Ableitungen.

App von Andreas Lindner

Wir haben im obigen Beispiel gesehen, dass die notwendige Bedingung für ein Extremum nicht hinreichend ist. Analog zum univariaten Fall benötigen wir hier zweite Ableitungen für eine hinreichende Bedingung.

Sei \(f: U \subseteq \R^n \to \R\) eine \(C^1\)-stetige Funktion. Die partielle Ableitung zweiter Ordnung in die Raumrichtungen \(i\) und \(j\) an der Stelle \(\vec{x}\) ist \[ \frac{\partial^2 f}{\partial x_j \, \partial x_i}(\vec{x}) \;\mathrel{:=}\; \frac{\partial \left(\frac{\partial f}{\partial x_i}\right)}{\partial x_j}(\vec{x}) . \] Wenn wir zweimal nach derselben Variable \(x_i\) ableiten, schreiben wir auch \[ \frac{\partial^2 f}{\partial x_i^2}(\vec{x}) \;\mathrel{:=}\; \frac{\partial^2 f}{\partial x_i \, \partial x_i}(\vec{x}) . \]

Existieren alle partiellen Ableitungen zweiter Ordnung an allen \(\vec{x} \in U\), so ist \(f\) zweimal partiell differenzierbar. Sind alle partiellen Ableitungen zweiter Ordnung zusätzlich stetig, so ist \(f\) zweimal stetig partiell differenzierbar oder \(C^2\)-stetig.

Da wir bei \(n\) Variablen jede der \(n\) partiellen Ableitungen noch einmal nach allen \(n\) Variablen partiell ableiten können, erhalten wir insgesamt \(n^2\) partielle Ableitungen zweiter Ordnung erhalten. Diese können wir in der sogenannten Hesse-Matrix anordnen:

Sei \(f: U \subseteq \R^n \to \R\) eine \(C^2\)-stetige Funktion. Die aus den partiellen Ableitungen zweiter Ordnung gebildete quadratische Matrix \[ \hess{f}(\vec{x}) \;\mathrel{:=}\; \matrix{ \frac{\partial^2 f(x)}{\partial x_1^2} & \frac{\partial^2 f(x)}{\partial x_1 \partial x_2} & \ldots & \frac{\partial^2 f(x)}{\partial x_1 \partial x_n}\\ \frac{\partial^2 f(x)}{\partial x_2 \partial x_1} & \frac{\partial^2 f(x)}{\partial x_2^2} & \ldots & \frac{\partial^2 f(x)}{\partial x_2 \partial x_n}\\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f(x)}{\partial x_n \partial x_1} & \frac{\partial^2 f(x)}{\partial x_n \partial x_2} & \ldots & \frac{\partial^2 f(x)}{\partial x_n^2} } \] nennen wir die Hesse-Matrix der Funktion \(f\) an der Stelle \(\vec{x}\).

Übrigens: Die Hesse-Matrix ist die Jacobi-Matrix des Gradienten von von \(f\).

Sei \(f:\R^2 \to \R\) mit \(f(x,y) = 2xy + 3x + 4x^2y\). Die ersten partiellen Ableitungen lauten \[ \frac{\partial f(x,y)}{\partial x} = 2y + 3 + 8xy \quad\text{und}\quad \frac{\partial f(x,y)}{\partial y} = 2x + 4x^2 . \] Erneutes partielles Ableiten nach \(x\) bzw. \(y\) liefert die partiellen Ableitungen zweiter Ordnung \[ \frac{\partial^2 f(x,y)}{\partial x^2} = 8y, \quad \frac{\partial^2 f(x,y)}{\partial x \partial y} = 2+ 8x, \quad \frac{\partial^2 f(x,y)}{\partial y \partial x} = 2 + 8x, \quad \frac{\partial^2 f(x,y)}{\partial y^2} = 0, \] und damit die Hessematrix \[ \hess{f}(x,y) = \matrix{ 8y & 2+8x \\ 2+8x & 0 }. \]

Beim letzten Beispiel ist Ihnen vielleicht aufgefallen, dass die gemischten zweiten Ableitungen identisch waren, wodurch die Hesse-Matrix symmetrisch wurde. Dies ist nicht zufällig so, sondern nach dem Satz von Schwarz für \(C^2\)-stetig Funktionen immer der Fall.

Sei \(f: U \subseteq \R^n \to \R\) eine \(C^2\)-stetige Funktion. Dann gilt \[ \frac{\partial^2 f}{\partial x_i \, \partial x_j}(\vec{x}) \;=\; \frac{\partial^2 f}{\partial x_j \, \partial x_i}(\vec{x}) \quad \forall i,j \in \set{1,\ldots,n}. \]

Die hinreichende Bedingung für ein lokales Extremum ist bei multivariaten Funktionen leider weniger handlich als bei univariaten Funktionen, wo wir nach auto aus dem Vorzeichen der zweiten Ableitung (zusammen mit der notwendigen Bedingung \(f'(x)=0\)) die Existenz und Art eines lokalen Extremums bestimmen konnten: Minimum falls \(f''(x) > 0\), Maximum falls \(f''(x) < 0\), und bei \(f''(x) = 0\) keine Aussage möglich.

Für multivariate Funktionen übernimmt die Hesse-Matrix die Rolle der zweiten Ableitung, welche für ein Minimum bzw. Maximum positiv definit bzw. negativ definit sein muss.

Eine Matrix \(\mat{A} \in \R^{n \times n}\) ist

Die Definitheit einer Matrix hängt mit den Eigenwerten der Matrix zusammen (die Sie in MafI1 gelernt haben sollten): Bei einer positiv definiten Matrix sind alle Eigenwerte positiv, bei einer negativ definiten Matrix sind sie negativ, und bei einer indefiniten Matrix gibt es sowohl positive als auch negative Eigenwerte. Bei einer positiv (bzw. negativ) semidefiniten Matrix sind die Eigenwerte \(\geq 0\) (bzw. \(\leq 0\)).

Wenn man die Definitheit einer Matrix als mehrdimensionales Analogon zu einem Vorzeichen akzeptiert (für \(n=1\) ergibt sich tatsächlich daraus eine einfache Vorzeichenbetrachtung von \(\mat{A}\)), dann ist auch die hinreichende Bedingung nicht weiter überraschend. Vergleichen Sie diese mit auto.

Sei \(f: U \subseteq \R^n \to \R\) eine \(C^2\)-stetige Funktion.

Falls \(\grad f(\vec{x}) = \vec{0}\) und die Hesse-Matrix \(\hess{f}(\vec{x})\) in \(\vec{x}\) positiv (bzw. negativ) definit ist, dann nimmt \(f\) in \(\vec{x}\) ein lokales Minimum (bzw. Maximum) an.

Ist die Hesse-Matrix in \(\vec{x}\) indefinit, so liegt kein Extremum vor.

Wenn die Hesse-Matrix semidefinit ist, kann keine Aussage getroffen werden. Übrigens hängt die Definitheit der Hesse-Matrix auch mit der Konvexität der Funktion zusammen (vgl. auto). Ist \(\hess{f}(\vec{x})\) für alle \(\vec{x} \in U \subseteq \R^n\) positiv (bzw. negativ) semidefinit, so ist \(f\) auf \(U\) konvex (bzw. konkav) und lokale Minima (bzw. Maxima) sind auch globale Minima (bzw. Maxima).

Da die Bestimmung der Definitheit einer Matrix im Allgemeinen mehrere Wochen einer Veranstaltung zur linearen Algebra füllen kann, beschränken wir uns hier auf den zweidimensionalen Fall, der bei Funktionen \(f : U \subseteq \R^2 \to \R\) anwendbar ist. Hier gibt es eine handliche Regel für die Definitheit der Hesse-Matrix. Der Fall von \((n \times n)\)-Matrizen wird im Exkurs Matrizen erklärt.

Eine symmetrische \((2 \times 2)\)-Matrix \(\mat{A} = \matrix{a & c \\ c & b} \in \R^{2 \times 2}\) ist

Wenn Sie nicht mehr wissen, was die Determinante \(\det{\mat{A}}\) einer Matrix \(\mat{A}\) ist, schauen Sie im Exkurs Matrizen (oder Ihren MafI1-Unterlagen) nach.

  1. Für \(f: \R^2 \to \R\) mit \(f(x,y) = x^2 + y^2 + 1\) ergibt sich \[ \grad f(x,y) = \vector{2x \\ 2y} \quad\text{und}\quad \hess{f}(x,y) = \matrix{ 2 & 0 \\ 0 & 2 } . \] Weil \(\grad f(0,0) = 0\) und \(\hess{f}\) für alle \((x,y)\) positiv definit ist, hat \(f\) in \((0,0)\T\) ein lokales (und globales) Minimum. Der Graph von \(f\) ist ein nach oben geöffneter Paraboloid.

    Visualisierung
  2. Für \(f: \R^2 \to \R\) mit \(f(x,y) = 42 - x^2 - y^2\) ergibt sich \[ \grad f(x,y) = \vector{-2x \\ -2y} \quad\text{und}\quad \hess{f}(x,y) = \matrix{ -2 & 0 \\ 0 & -2 } . \] Weil \(\grad f(0,0) = 0\) und \(\hess{f}\) für alle \((x,y)\) negativ definit ist, hat \(f\) in \((0,0)\T\) ein lokales (und globales) Maximum. Der Graph von \(f\) ist ein nach unten geöffneter Paraboloid.

    Visualisierung
  3. Für \(f: \R^2 \to \R\) mit \(f(x,y) = 3 + x^2 - y^2\) ergibt sich \[ \grad f(x,y) = \vector{2x \\ -2y} \quad\text{und}\quad \hess{f}(x,y) = \matrix{ 2 & 0 \\ 0 & -2 } . \] Weil \(\grad f(0,0) = 0\) und \(\hess{f}\) indefinit ist, hat \(f\) in \((0,0)\T\) kein lokales Extremum. Der Graph von \(f\) ist eine sogenannte Sattelfläche.

    Visualisierung
  4. Für \(f: \R^2 \to \R\) mit \(f(x,y) = x^3 + y^3 - 3xy\) ergibt sich \[ \grad f(x,y) = \vector{ 3x^2 - 3y\\ 3y^2 -3x} \quad\text{und}\quad \hess{f}(x,y) = \matrix{6x & -3 \\ -3 & 6y} . \]

    Der Gradient verschwindet, wenn \(x^2 = y\) und \(y^2 = x\), also wenn \(x^4 = x\), woraus sich die zwei Lösungen \((0,0)\T\) und \((1,1)\T\) ergeben. An diesen beiden Stellen können Extrema angenommen werden (müssen aber nicht). Wir setzen die beiden Punkte in die Hesse-Matrix ein. Für \((0,0)\) ergibt sich \[ \hess{f}(0,0) = \matrix{0 & -3 \\ -3 & 0} . \] Diese Matrix ist indefinit, da \(\det{\hess{f}(0,0)} = -9 < 0\). Somit ist \((0,0)\) keine Extremstelle. Für den zweiten Punkt ergibt sich \[ \hess{f}(1,1) = \matrix{6 & -3 \\ -3 & 6} . \] Diese Matrix ist positiv definit, da der obere linke Eintrag positiv ist und \(\det{\hess{f}(1,1)} = 27 > 0\). Damit nimmt \(f\) in \((1,1)\T\) ein lokales Minimum an.

    Visualisierung

Optimierung multivariater Funktionen

Im letzten Beispiel haben wir mit einfachen Funktionen gearbeitet, für die wir die lokalen Extrema dann auch recht einfach ausrechnen konnten. In der Praxis sind die Probleme aber meistens deutlich komplexer: Die zu minimierenden Funktionen sind viel komplizierter als simple quadratischen Polynome und hängen auch nicht nur von zwei oder drei Variablen ab, sondern von sehr vielen Parametern. Hier kommen wir oft mit Kopfrechnen oder Papier und Bleistift an unsere Grenzen und müssen die Lösung numerisch bestimmen.

Abstiegsmethoden mit Liniensuche

In diesem Kapitel werden wir zwei numerische Optimierungsmethoden sehen, die in der Praxis häufig und erfolgreich eingesetzt werden: Die Methode des steilsten Abstiegs und das Newton-Verfahren. Beide Methoden minimieren eine multivariate skalarwertige Funktion \(f : \R^n \to \R\), von der gefordert wird, dass sie \(C^1\)-stetig (für steilsten Abstieg) oder \(C^2\)-stetig (für Newton-Verfahren) ist. Beide Algorithmen arbeiten iterativ: Sie beginnen bei einem Startwert \(\xit{0}\) und verbessern diesen sukzessive, sodass die Folge \(\xit{0}, \xit{1}, \xit{2}, \dots\) gegen den Parametervektor \(\vec{x}^*\) konvergiert, für den \(f\) ein lokales Minimum \(f(\vec{x}^*)\) annimmt. Hier gilt nach auto also \(\grad f(\vec{x}^*)=0.\)

In jeder Iteration wird der Punkt \(\xit{k} \in \R^n\) dabei um eine Schrittweite \(\ait{k} \in \R_{>0}\) in eine Richtung \(\dit{k} \in \R^n\) verschoben, um so einen neuen Punkt \(\xit{k+1}\) mit kleinerem Funktionswert \(f(\xit{k+1}) < f(\xit{k})\) zu erhalten: \[ \xit{k+1} \;\mathrel{:=}\; \xit{k} + \ait{k}\dit{k} . \] Hierfür muss der Vektor \(\dit{k}\) eine Richtung sein, in der sich der Funktionswert auch tatsächlich verringert. Das Bestimmen dieser sogenannten Abstiegsrichtungen \(\dit{k}\) und der entsprechenden Schrittweiten \(\ait{k}\) ist die Hauptaufgabe der Optimierungsalgorithmen, die wie folgt aufgebaut sind:

skript-page-code-a102b95c.tex.svg

Die Wahl der Schrittweite \(\ait{k}\) (im Machine Learning auch Lernrate genannt) hat starken Einfluss auf die Konvergenz der Methode: Ist sie zu groß, divergiert die Methode; ist sie zu klein, braucht der Algorithmus sehr viele Iterationen bis zur Konvergenz. Es gibt es beliebig komplizierte Methoden, um die Schrittweiten zu bestimmen, bis hin zu einer eigenen numerischen Optimierung für die optimale Schrittweite entlang der Richtung \(\dit{k}\). Eine einfache Heuristik ist, mit einer bestimmten Schrittweite zu starten (z.B. \(\ait{k}=1\)), und diese sukzessive zu halbieren, bis der Funktionswert kleiner wird, also \(f\of{\xit{k}+\ait{k}\dit{k}} < f\of{\xit{k}}.\)

Bei der Wahl der Abstiegsrichtungen unterscheiden sich nun die Methoden. Wir beginnen mit der Methode des steilsten Abstiegs.

Methode des steilsten Abstiegs

Stellen wir uns die zu minimierende Funktion \(f(\vec{x})\) als Höhenfeld bzw. als Graphen vor. Wenn wir an einer Position \((\xit{k}, f\of{\xit{k}})\) auf dem Höhenfeld stehen und möglichst schnell in ein Minimum (“ins Tal”) kommen möchten, ist es naheliegend, möglichst steil bergab zu laufen. Die Frage ist jetzt, wie wir die Suchrichtung \(\dit{k}\) finden, die am steilsten bergab zeigt.

Hier helfen uns wieder (partielle) Ableitungen, die uns am Punkt \(\vec{x}\) die Steigung der Funktion geben. Wenn \[ \vec{e}_i \;\mathrel{:=}\; (0, \dots, 0, \underbrace{1}_{i\text{-te Stelle}}, 0, \dots, 0)\T \] der \(i\)-te Basisvektor ist, dann ist die partielle Ableitung nach der \(i\)-ten Koordinate gerade die Ableitung in Richtung \(\vec{e}_i\), also die Steigung der Funktion in Richtung \(\vec{e}_i\) \[ \pdiff{f}{x_i}(\vec{x}) \;=\; \limto{h}{0} \frac{f(\vec{x} + h\vec{e}_i) - f(\vec{x})}{h} . \] Das sieht man leicht durch Vergleich der letzten Gleichung mit auto sieht. Da wir aber aus allen möglichen Richtungen die Richtung des steilsten Abstiegs finden wollen, müssen wir die Funktion “in alle Richtungen” ableiten. Dies führt auf den Begriff der Richtungsableitung.

Sei \(f: U \subseteq \R^n \to \R\) partiell differenzierbar, \(\vec{x} \in U\) ein Punkt und \(\vec{v} \in \R^n\) ein Richtungsvektor mit \(\norm{\vec{v}}=1\). Wenn der Grenzwert \[ \func{D}_{\vec{v}} f(\vec{x}) \;\mathrel{:=}\; \limto{h}{0} \frac{f(\vec{x}+h\vec{v}) - f(\vec{x})}{h} \] existiert, dann nennen wir diesen die Richtungsableitung von \(f\) im Punkt \(\vec{x}\) in Richtung \(\vec{v}\).

Hierbei entspricht die Richtungsableitung in Richtung \(\vec{e}_i\) der partiellen Ableitung nach \(x_i\). Jetzt können wir die Funktion \(f\) in jede Richtung ableiten und so die Steigung in alle Richtungen ermitteln. Der folgende Satz gibt uns einen interessanten Zusammenhang zwischen der Richtungsableitung und dem Gradienten:

Für eine \(C^1\)-stetige Funktion \(f: U \subseteq \R^n \to \R\) gilt für jeden Punkt \(\vec{x} \in U\) und jede Richtung \(\vec{v} \in \R^n\) mit \(\norm{\vec{v}}=1\) \[ \func{D}_{\vec{v}} f(\vec{x}) \;=\; \grad f(\vec{x}) \cdot \vec{v} . \]

Die geometrische Bedeutung des Skalarproduktes kennen wir bereits: Wenn \(\theta\) der Winkel zwischen \(\vec{v}\) und \(\grad f(\vec{x})\) ist, dann gilt \[ \func{D}_{\vec{v}} f(\vec{x}) \;=\; \grad f(\vec{x}) \cdot \vec{v} \;=\; \norm{\grad f(\vec{x})} \, \cos(\theta) . \] Da der Cosinus sein Maximum an \(\theta=0\) annimmt, ist die Richtungsableitung maximal (d.h., maximale Steigung bergauf), wenn \(\vec{v}\) und \(\grad f\) in die gleiche Richtung zeigen. Probieren Sie das in der folgenden Demo einmal aus.

Demo: Richtungsableitung und Gradient

Bewegen Sie den Punkt \(\vec{Q}\) auf dem Kreis um \(\vec{x}\), was die Richtung \(\vec{v}=\vec{Q}-\vec{x}\) kontrolliert, und beobachten Sie, wie sich die Richtungsableitung ändert. Für \(\vec{v}=\vec{e}_i\) ergeben sich die partiellen Ableitungen nach \(x\) und \(y\), für \(\vec{v}=\grad f(\vec{x})\) wird die Richtungsableitung maximal.

App von Andreas Lindner

Mit der gleichen Argumentation wird die Steigung minimal (d.h., maximales Gefälle bergab), wenn \(\theta=180^\circ\), also \(\vec{v} = -\grad f(\vec{x})\). Der Gradient ist also die Richtung des steilsten Anstiegs und der negative Gradient die Richtung des steilsten Abstiegs. Genau diese Richtung haben wir gesucht, so dass unser Algorithmus damit komplett ist:

skript-page-code-b068b431.tex.svg

In der folgenden Demo können Sie selber in die Rolle dieses Algorithmus schlüpfen, indem Sie den Punkt \(\vec{x}\) in Richtung des negativen Gradienten verschieben.

Demo: Verschieben in Gradientenrichtung

Verschieben Sie den Punkt \(\vec{x}\) in Richtung des Gradienten \(\grad f(\vec{x})\), bis Sie an einem Maximum ankommen. Oder verschieben Sie \(\vec{x}\) in Richtung des negativen Gradienten, dann landen Sie in einem Minimum.

App von Andreas Lindner

Die Methode des steilsten Abstiegs, auch Gradientenabstieg oder Gradient Descent genannt, hat den Vorteil, dass man von der zu minimierenden Funktion nur Funktionswerte \(f(\vec{x})\) und Gradienten \(\grad f(\vec{x})\) auswerten muss, und nicht (wie bei vielen anderen Methoden) ein Gleichungssystem lösen muss. Daher kann man diese Methode auch für eine sehr große Anzahl \(n\) von Parametern einsetzen. Aus diesem Grund ist Gradient Descent (bzw. dessen Variante Stochastic Gradient Descent) die Standardmethode im Deep Learning, um eine Loss Function zu minimieren. Der Nachteil des Gradientenabstiegs ist, dass das Bestimmen geeigneter Schrittweiten nicht trivial ist, und dass der Algorithmus teilweise sehr viele Iterationen benötigt.

Newton-Verfahren

Der Gradientenabstieg hat die Funktion \(f\) in jedem Punkt \(\xit{k}\) lokal durch ihre ersten partiellen Ableitungen angenähert, bzw. das Verhalten der Funktion durch den Gradienten abgeschätzt. Diesen Trick haben wir bei der Taylor-Approximation in auto schon einmal gesehen, und er lässt sich auf multivariate Funktionen erweitern. Die multivariate Taylor-Approximation erster Ordnung verwendet den Funktionswert \(f\of{\vec{x}_0}\) und den Gradienten \(\grad f\of{\vec{x}_0}\) am Entwicklungspunkt \(\vec{x}_0\): \[ T_1[f,\vec{x}_0](\vec{x}) \;=\; f\of{\vec{x}_0} + \grad f\of{\vec{x}_0}\T \left( \vec{x} - \vec{x}_0 \right) . \]

Wenn die Funktion \(f\) nicht nur \(C^1\)-stetig, sondern sogar \(C^2\)-stetig ist, können wir die Taylor-Approximation zweiter Ordnung bestimmen, welche zusätzlich zum Gradienten \(\grad f\) noch die Hesse-Matrix \(\hess{f}\) verwendet: \[ T_2[f,\vec{x}_0](\vec{x}) \;=\; f\of{\vec{x}_0} + \grad f\of{\vec{x}_0}\T \left( \vec{x} - \vec{x}_0 \right) + \frac{1}{2} \left( \vec{x} - \vec{x}_0 \right)\T \hess{f}\of{\vec{x}_0} \left( \vec{x} - \vec{x}_0 \right) . \]

Dass die Taylor-Approximation zweiter Ordnung die Funktion \(f\) deutlich besser approximiert als die Taylor-Approximation erster Ordnung, kann man in der folgenden Demo gut sehen.

Demo: Multivariate Taylor-Approximation
App von Andreas Lindner

Die Idee des Newton-Verfahrens ist nun, die Funktion \(f\) in Iteration \(k\) am (Entwicklungs-)Punkt \(\xit{k}\) durch ihr Taylorpolynom zweiter Ordnung anzunähern. Ein Taylorpolynom zweiter Ordnung ist nur eine quadratische Funktion, die sich deutlich einfacher minimieren lässt. Durch die Minimierung des Taylorpolynoms erhalten wir somit eine neue Näherung \(\xit{k+1}\). Wir sparen uns der Übersichtlichkeit halber die Iterationsindizes \(^{(k)}\) und schreiben die Taylorapproximation am Punkt \(\vec{x}\) als \[ f\of{\vec{x}+\vec{d}} \;\approx\; f\of{\vec{x}} + \grad f\of{\vec{x}}\T \vec{d} + \frac{1}{2} \vec{d}\T \hess{f}\of{\vec{x}} \vec{d}. \]

Um das Minimum zu finden, fassen wir das Taylorpolynom als Funktion \(p(\vec{d})\) auf und berechnen den Gradienten: \[ \begin{align*} p\of{\vec{d}} &= f\of{\vec{x}} + \grad f\of{\vec{x}}\T \vec{d} + \frac{1}{2} \vec{d}\T \hess{f}\of{\vec{x}} \vec{d} , \\[1em] \grad p\of{\vec{d}} &= \grad f\of{\vec{x}} + \hess{f}\of{\vec{x}} \vec{d} . \end{align*} \] Für das Berechnen des Gradienten haben wir die folgenden Ableitungsregeln für Funktionen von Vektoren verwendet, welche sich recht einfach nachrechnen lassen:

  1. Für \(\vec{y} \in \R^n\) und \(f: \R^n \to \R\) mit \(f(\vec{x}) = \vec{y}\T\vec{x} = \vec{x}\T\vec{y}\) ist \(\grad f(\vec{x}) = \vec{y}.\)

  2. Für \(f: \R^n \to \R\) mit \(f(\vec{x}) = \vec{x}\T\vec{x}\) ist \(\grad f(\vec{x}) = 2\vec{x}.\)

  3. Für \(\mat{M} \in \R^{n \times n}\) und \(f: \R^n \to \R\) mit \(f(\vec{x}) = \vec{x}\T \mat{M} \vec{x}\) ist \(\grad f(\vec{x}) = \mat{M}\vec{x} + \mat{M}\T\vec{x}.\)

    Ist \(\mat{M}\) symmetrisch, ergibt sich \(\grad f(\vec{x}) = 2\mat{M}\vec{x}.\)

Der Gradient muss am Minimum dem Nullvektor entsprechen, daher gilt \[ \grad f\of{\vec{x}} + \hess{f}\of{\vec{x}} \vec{d} = \vec{0} \quad\Leftrightarrow\quad \hess{f}\of{\vec{x}} \vec{d} = -\grad f\of{\vec{x}} \quad\Leftrightarrow\quad \vec{d} = -\left(\hess{f}\of{\vec{x}}\right)^{-1} \grad f\of{\vec{x}} . \] Wir bekommen also den Update-Vektor \(\vec{d}\), indem wir das lineare \((n \times n)\)-Gleichungssystem \(\hess{f}\of{\vec{x}} \cdot \vec{d} = -\grad f\of{\vec{x}}\) lösen. Wenn Sie gut aufgepasst haben, ist Ihnen aufgefallen, dass der resultierende Vektor \(\vec{d}\) zunächst nur die notwendige Bedingung (auto) erfüllt. Damit wirklich ein Minimum vorliegt, muss noch die hinreichende Bedingung (auto) erfüllt sein, d.h., die Hesse-Matrix von \(p\) (welche identisch mit \(\hess f\of{\vec{x}}\) ist) muss positiv definit sein. In der Praxis werden daher meist Kostenfunktionen verwendet, welche entweder konvex sind (und damit ist die Hesse-Matrix positiv definit), oder bei denen durch zusätzlich Bedingungen an die Funktion (sogenannte Regularisierungen) lokale Konvexität erzwungen wird.

Damit haben wir jetzt alle Zutaten für den Newton-Algorithmus parat:

skript-page-code-f30d9ba6.tex.svg

Der Newton-Algorithmus ist zwar aufgrund des zu lösenden linearen Gleichungssystems pro Iteration viel aufwendiger als der Gradientenabstieg, konvergiert dafür aber in deutlich weniger Iterationen. Wenn die Problemgröße es zulässt, ist die Newton-Methode daher meist die bessere Wahl. Das robuste und effiziente Lösen linearer Gleichungssysteme ist ein Thema der Master-Vorlesung “Effizientes und paralleles wissenschaftliches Rechnen”.