5. Gradientti ja suunnattu derivaatta

Määritelmä

Olkoon \(D\subset \mathbb{R}^n\) ja \(\mathbf{f} = (f_1,f_2,\ldots,f_m)\) vektori, missä jokainen funktion \(f\) komponentti on funktio \(f_j\colon D \to \mathbb{R}\) ja \(m,n\ge 2\). Tällainen vektori määrittelee vektoriarvoisen funktion \(\mathbf{f}\colon \mathbb{R}^n \to \mathbb{R}^m\), jota kutsutaan myös vektorikentäksi. Usein käytetään merkintää \(\mathbf{y} = \mathbf{f}(\mathbf{x})\).

Vektoriarvoisia funktiota esiintyy usein mm. fysiikassa sellaisten suureiden yhteydessä, joilla on voimakkuus ja suunta (esimerkiksi nopeus- ja voimakentät).

Huomautus. Yllä \(f_j\):t ovat tässä vektorin \(\mathbf{f}\) komponentteja (eivät siis osittaisderivaattoja).

Vektoriarvoisen funktion derivointi

Derivaatan luonnollinen vastine vektoriarvoisen funktion \(\mathbf{f} =(f_1,f_2,\ldots,f_m)\) tapauksessa on Jacobin matriisi \[ D\mathbf{f}(\mathbf{x}) = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n}\\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n}\\ \vdots & \vdots & & \vdots \\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n}. \end{bmatrix} \] Jos \(m=n\), Jacobin matriisi on neliömatriisi ja sen determinattia sanotaan funktion \(\mathbf{f}\) Jacobin determinantiksi pisteessä \(\mathbf{x}\). Tätä determinanttia tarvitaan kurssin loppuosassa.

Jacobin matriiseilla ketjusääntö voidaan kirjoittaa yleisessä muodossa \[ D(\mathbf{f} \circ \mathbf{g})(\mathbf{x})= D\mathbf{f}\big(\mathbf{g}(\mathbf{x})\big)D\mathbf{g}(\mathbf{x}). \]

Sovellus: implisiittifunktiolause

Oletetaan, että skalaarifunktiot \(F_{(1)}, F_{(2)}, \ldots , F_{(n)}\) ovat derivoituvia. Tutkitaan yhtälöryhmää \[ \left\{\begin{array}{l} F_{(1)}(x_1,x_2,\ldots,x_m,y_1,y_2,\ldots,y_n)=0,\\ F_{(2)}(x_1,x_2,\ldots,x_m,y_1,y_2,\ldots,y_n)=0,\\ \vdots\\ F_{(n)}(x_1,x_2,\ldots,x_m,y_1,y_2,\ldots,y_n)=0,\\ \end{array}\right. \] pisteen \(P_0 = (a_1,a_2,\ldots,a_m,b_1,b_2,\ldots,b_n)\) lähellä. Muuttujat \(\mathbf{y}=(y_1,\ldots,y_n)\) voidaan esittää muuttujien \(\mathbf{x}=(x_1,\ldots,x_m)\) funktioina pisteen \(P_0\) lähellä, jos funktion \(\mathbf{f}(\mathbf{y}) = (F_{(1)},\ldots,F_{(n)})(\mathbf{y})\) Jacobin determinatti \[ \det D\mathbf{f}(\mathbf{y})\Big|_{P_0} \neq 0. \]

Esimerkki

Osoitetaan, että \((u,v)\) voidaan esittää muuttujien \((x,y,z)\) funktiona systeemistä \[ \left\{\begin{array}{l} F(x,y,z,u,v) = xy^2+xzu + yv^2-3 = 0,\\ G(x,y,z,u,v) = x^3yz+2xv -u^2v^2-2 = 0,\\ \end{array}\right. \] pisteen \(P_0=(1,1,1,1,1)\) lähellä.

Selvästi \(F(P_0) = G(P_0) = 0\). Muodostetaan Jacobin determinatti \[ \left|\begin{array}{cc} \frac{\partial F}{\partial u} & \frac{\partial F}{\partial v} \\ \frac{\partial G}{\partial u} & \frac{\partial G}{\partial v} \end{array}\right|\Big|_{P_0} = \left|\begin{array}{cc} xz & 2yv \\ -2uv^2 & 2x-2u^2v \end{array}\right|\Big|_{P_0} = \left|\begin{array}{cc} 1 & 2 \\ -2 & 0 \end{array}\right|=4. \] Koska determinantti ei ole nolla, voidaan kirjoittaa \[u = u(x,y,z)\quad \text{ ja }\quad v = v(x,y,z)\] kolmen muuttujan funktioina. Kaavoja näille funktioille ei kuitenkaan voida yleensä antaa.

Gradientti

Olkoon \(f\colon D\subset \mathbb{R}^n\to\mathbb{R}\), \(n\ge 2\), derivoituva pisteessä \(\mathbf{x}\in D\).

Määritelmä. Funktion \(f\) gradientti pisteessä \(\mathbf{x}\) on vektori \[ \nabla f = \mathrm{grad}\, f = \Big(\frac{\partial}{\partial x_1}f,\frac{\partial}{\partial x_2}f,\ldots,\frac{\partial}{\partial x_n}f\Big)\in\mathbb{R}^n. \]

Gradientti kertoo funktion \(f\) nopeimman kasvun suunnan. Se on vektoriarvoinen funktio \(\nabla f\colon D \to \mathbb{R}^n\). Tapauksessa \(n=3\) voidaan kirjoittaa \[ \nabla = \mathbf{i} \frac{\partial}{\partial x} + \mathbf{j}\frac{\partial}{\partial y} + \mathbf{k}\frac{\partial}{\partial z}. \] Tapauksessa \(n=2\) kolmas termi jää pois. Gradientti on (\(m\times n\) -) Jacobin matriisin erikoistapaus \(m=1\).

Esimerkki

Olkoon \(f(x,y)=x^2+y^2\). Tällöin saadaan \(\nabla f = 2x\mathbf{i} + 2y \mathbf{j}\). Erityisesti \(\nabla f (a,b)\) on kohtisuorassa origokeskisen (yksikkö)ympyrän mielivaltaiseen pisteeseen \((a,b\)) piirrettyä tangenttisuoraa vastaan. Tämä on erikoistapaus yleisemmästä tasa-arvokäyriä koskevasta totuudesta.

Huom. Derivaatan ketjusääntö voidaan kirjoittaa myös gradientin avulla: Jos \(\mathbf{r}=x(t)\,\mathbf{i}+y(t)\,\mathbf{j}\), niin \[\frac{d}{dt}f(\mathbf{r}(t)) = \frac{\partial f}{\partial x}\frac{dx}{dt}+\frac{\partial f}{\partial y}\frac{dy}{dt}= \nabla f(\mathbf{r}(t))\cdot \mathbf{r}'(t).\]

Tasa-arvokäyrät

Olkoon \(c\in\mathbb{R}\) vakio, \(D\subset\mathbb{R}^2\) ja \(f\colon D \to \mathbb{R}\) funktio. Tällöin joukko \[C= \{(x,y) : f(x,y)=c\}\] on usein tasokäyrä. Kyseinen pistejoukko voi olla myös tyhjä (jos \(f\) ei saa arvoa \(c\)) tai vaikkapa koko taso (jos \(f\) on vakio). Mikäli joukko \(C\) on tasokäyrä, sitä sanotaan funktion \(f\) arvoon \(c\) liittyväksi tasa-arvokäyräksi.

Esimerkiksi korkeuskäyrät kartalla ovat tasa-arvokäyriä funktiolle, joka liittää kartalla olevaan pisteeseen \((x,y)\) sen korkeuden meren pinnasta.

Gradientti

Lause. Olkoon \(D\subset \mathbb{R}^2\), \((a,b)\in D\) ja \(f\colon D\to \mathbb{R}\) derivoituva pisteessä \((a,b)\) ja \(\nabla f(a,b)\neq \mathbf{0}.\) Tällöin \(\nabla f(a,b)\) on kohtisuorassa pisteen \((a,b)\) kautta kulkevaa funktion \(f\) tasa-arvokäyrää (t.s., sen tangenttia) vasten.

Seuraus: Jos piste \(\mathbf{x}\in D\) on funktion \(f\) paikallinen ääriarvo (minimi tai maksimi), niin \(\nabla f(\mathbf{x})=\mathbf{0}\). Gradientin nollakohta ei kuitenkaan välttämättä ole funktion ääriarvo. Edes skalaarifunktion derivaatan nollakohta ei välttämättä ole minimi eikä maksimi, kuten nähdään jos \(f(x) = x^3\).

Todistus. Olkoon \(I = [-1,1]\) ja \(\mathbf{r}(t)\colon I \to \mathbb{R}^2\) tasa-arvokäyrän sellainen parametrisointi, että \(\mathbf{r}(0)=(a,b)\). Koska \(\mathbf{r}(t)=x(t)\mathbf{i} +y(t)\mathbf{j}\) on tasa-arvokäyrä, kaikilla \(t\in I\) pätee \(f(x(t),y(t))=f(a,b)\) eli vakio. Ketjusäännöstä saadaan (koska vakiofunktion derivaatta on nolla) \[ f_{x}\big(x(t),y(t)\big)x'(t) + f_{y}\big(x(t),y(t)\big)y'(t)=0. \] Erityisesti pisteessä \(t=0\) tämä tarkoittaa, että \[ \nabla f(a,b)\cdot \mathbf{r}'(0)=0, \] eli toisin sanoen vektori \(\nabla f\) ja tangentin suuntainen \(\mathbf{r}'(0)\) ovat kohtisuorassa.

Suunnattu derivaatta

Edellinen tulos voidaan tulkita niin, että tasa-arvokäyrän tangentti antaa suunnan, johon edettäessä funktio ei kasva eikä vähene. Niinpä funktio kasvaa jyrkimmin gradienttinsa suuntaan, joka on tasa-arvokäyrän normaalivektori. Muihin suuntiin liikuttessa kasvunopeuden antaa suunnattu derivaatta \[ D_{\mathbf{u}}f(a,b) = \frac{dg}{dt}(0), \text{ jossa } g(t) = f(a + t u_1, b + t u_2) \] ja \(\mathbf{u} = u_1 \mathbf{i} + u_2 \mathbf{j}\) on yksikkösuuntavektori.

Lause. Olkoon \(f\colon D\subset \mathbb{R}^2\to \mathbb{R}\) funktio, \((a,b)\in D\) ja \(\mathbf{u} = u_1 \mathbf{i} + u_2 \mathbf{j}\) sellainen vektori, että \(\|\mathbf{u}\|^2= u_1^2 + u_2^2 = 1\). Tällöin funktion \(f\) suunnattu derivaatta suuntaan \(\mathbf{u}\) saadaan kaavasta \[ D_{\mathbf{u}}f(a,b) = \mathbf{u} \cdot \nabla f(a,b). \]

Esimerkki

Olkoon \(f(x,y)=y^4+2xy^3+x^2y^2\). Etsitään \(D_{\mathbf{u}}f (0,1)\), kun \(\mathbf{u}\) on

a) \(\mathbf{i} +2\mathbf{j}~\) b) \(\mathbf{j} - 2\mathbf{i}~\) c) \(3\mathbf{i}~\) d) \(\mathbf{i}+\mathbf{j}\).

Lasketaan \[\nabla f(x,y) = (2y^3+2xy^2)\mathbf{i} + (4y^3+6xy^2+2x^2y)\mathbf{j},\] \[\nabla f(0,1) = 2\mathbf{i} + 4\mathbf{j}.\] a) \(\|\mathbf{i} +2\mathbf{j}\| = \sqrt{5}\) ja siten \(\mathbf{u} = (\mathbf{i} +2\mathbf{j})/\sqrt{5}\). Saadaan \[ D_{\mathbf{u}}f(0,1)=\frac{1}{\sqrt{5}}(\mathbf{i} +2\mathbf{j})\cdot (2\mathbf{i} + 4\mathbf{j}) = \frac{2+8}{\sqrt{5}}=2\sqrt{5}. \]

Huomaa, että tässä \(\mathbf{u}\) ja \(\nabla f(0,1)\) ovat yhdensuuntaiset.

b) \(\|\mathbf{j} -2\mathbf{i}\| = \sqrt{5}\) ja siten \(\mathbf{u} = (\mathbf{j} -2\mathbf{i})/\sqrt{5}\). Saadaan \[ D_{\mathbf{u}}f(0,1)=\frac{1}{\sqrt{5}}(\mathbf{j} -2\mathbf{i})\cdot (2\mathbf{i} + 4\mathbf{j}) = \frac{-4+4}{\sqrt{5}}=0. \] Vektorit \(\mathbf{u}\) ja \(\nabla f(0,1)\) ovat siis kohtisuorassa.

c) \(\|3\mathbf{i}\| = 3\) ja siten \(\mathbf{u} = \mathbf{i}\). Saadaan \[D_{\mathbf{u}}f(0,1)=\mathbf{i} \cdot (2\mathbf{i} + 4\mathbf{j}) = 2.\] Tämä on sama kuin \(f_1(0,1)\).

d) \(\|\mathbf{i} +\mathbf{j}\| = \sqrt{2}\) ja siten \(\mathbf{u} = (\mathbf{i} +\mathbf{j})/\sqrt{2}\). Saadaan \[ D_{\mathbf{u}}f(0,1)=\frac{1}{\sqrt{2}}(\mathbf{i} +\mathbf{j})\cdot (2\mathbf{i} + 4\mathbf{j}) = \frac{2+4}{\sqrt{2}}=3\sqrt{2}. \]

Huomaa, että \(3\sqrt{2}\approx 4.243 < 2\sqrt{5} \approx 4.472\).