より一般的な場合で接線の式を作っておこう。一般のf(x)という関数はある点x0の付近では
f(x)=a(x−x0)+bのように直線に近似することができる。定数項bは、(両辺にx=x0を代入するとわかるように)実はf(x0)であり、aすなわち傾きは場所によって違うから、「傾きを表す関数」としてf'(x)という記号で書くことにしよう。その関数のx=x0での値がaである。
これらを使えば、
f(x)=f(x0)+f′(x0)(x−x0)と書いてもよいf′(x0)はf(x)をxで微分してから、x=x0を代入した、という意味である。逆に「x0を代入してからxで微分する」とやってはいけない(そんなことをしたら答えは0である)。(右辺の順番を変えたが、別に深い意味はない)。では、「傾きを表す関数」f'(x)をどう計算しよう?
右のグラフに示したように、yの変化量ΔyはΔy=f(x+Δx)−f(x)のような引き算で表現できるので、それをΔxで割った量のΔx→0の極限を計算すれば、任意のxの点での傾きが計算できる。Δxが0になるとき、二つの線が一致する、と見てよい。
Δxを0にするということは、「0で割る」という数学ではやってはいけないことをやってしまっているのではないのか??
こういう疑問を抱くのは当然である。実際にΔx=0とするのではなく、あくまで「近づける」であることに注意しよう。数学的には「極限」というのはいろいろややこしい定義をしなくてはいけないのだが、ここでは上のようにどんどんΔxを小さくしていくとどうなるかを予想した値を考えているのだと思って欲しい。そして、図でわかるように、その場合でも「直線の傾き」という量はちゃんと定義できる。
その結果もまたxの関数となる。その「新しい関数」を「導関数(derivative)」「derived function」という言い方もある(この直訳が導関数であろう)が、derivativeの方がよく使われる。という名前で呼ぶ。「導関数」という言葉は元の関数f(x)から導かれた関数という意味で単に「導く」だといろんな導き方がありそうだが、「導関数」と呼ぶのはこの定義によって導かれた関数のみ。的確に表現された言葉とは言い難いが、広く使われている。、導関数の定義
f′(x)=dfdx(x)=ddxf(x)⏟三通りの書き方≡limと定義する。「導関数」は上にも書いたように、3種類の方法(本によっては別の書き方もある)で表現される。このうち後ろ二つ{\mathrm df\over\mathrm dx}(x),{\mathrm d \over \mathrm dx}f(x)の持つ意味については、後で述べる。
関数f(x)からその導関数f'(x)を求める計算(たとえばf(x)=x^2からf'(x)=2x)を、「微分する」と表現する後で説明するが「微分する」という言葉は少し違う意味で使うこともある。。以下のように書いてもよい。 \begin{equation} f(x + {\Delta x})=f(x)+ f'(x){\Delta x}+{\cal O}(({\Delta x})^2) \end{equation}ここで使われた{\cal O}(a^n)という記号(ランダウの記号)について説明しておこう。
今ある数が{\Delta x}\to0において0にならないとすると、これは{\cal O}(1)と言う。またある量Aが{\Delta x}で割ってから{\Delta x}\to0にすると0でない値に収束するとき(つまり、{A\over {\Delta x}}が0でない値に収束するとき)、{\cal O}({\Delta x})だ、と言う。同様に、({\Delta x})^nで割ってから{\Delta x}\to0の極限を取ると0でないとき、{\cal O}(({\Delta x})^n)だ、という。簡単な例を示す。
\begin{equation} (x+{\Delta x})^3 = \underbrace{x^2}_{{\cal O}(1)}+\underbrace{3x{\Delta x} +\underbrace{3x({\Delta x})^2 +\underbrace{({\Delta x})^3}_{{\cal O}(({\Delta x})^3)} }_{{\cal O}(({\Delta x})^2)}}_{{\cal O}({\Delta x})} \end{equation}3x({\Delta x})^2だけではなく3x({\Delta x})^2 + {\Delta x}^3全部が{\cal O}(({\Delta x})^2)である({\cal O}({\Delta x})も同様)であることに注意しよう。{\cal O}(({\Delta x})^n)のなかには、nより大きいオーダーの項{\cal O}(({\Delta x})^m)~~(m>n)が含まれていてもよい。
オーダーは「桁」を意味する英語である。イメージとして、{\Delta x}の値を0.1,0.01,0.001,\cdotsとどんどん小さくしていった場合を考えると、
{\Delta x} | 0.1 | 0.01 | 0.001 | \cdots |
({\Delta x})^2 | 0.01 | 0.0001 | 0.000001 | \cdots |
({\Delta x})^3 | 0.001 | 0.000001 | 0.000000001 | \cdots |
のように小さくなっていく。{\Delta x}も({\Delta x})^2も桁が小さくなっていくが、({\Delta x})^2の方が(桁違いに!)小さいということがわかる。これが「オーダーが違う」という意味である。
以上のように、
微分の二つの表現
\begin{array}{rcl} f'(x)&=& \lim_{{\Delta x}\to0}{f(x+{\Delta x})-f(x)\over {\Delta x}}\\ f(x + {\Delta x})&=&f(x)+ f'(x){\Delta x}+{\cal O}(({\Delta x})^2) \end{array}のような二通りの方法で微分という演算を記述できる。
最後の項{\cal O}(({\Delta x})^2)は、{\Delta x}で割ってから{\Delta x}\to 0の極限を取ると消えてしまう項である(だから、極限を取った後の\式{bibunteigi}には登場しない)。
\begin{equation} \begin{array}{rll} f(x + {\Delta x})=&f(x)+ f'(x){\Delta x}+{\cal O}(({\Delta x})^2)&\\ f(x + {\Delta x})-f(x)=& f'(x){\Delta x}+{\cal O}(({\Delta x})^2)&\\ {f(x + {\Delta x})-f(x)\over {\Delta x}}=& f'(x)+\underbrace{{{\cal O}(({\Delta x})^2)\over {\Delta x}}}_{極限で消えてしまう項} \end{array} \end{equation}という操作により二つの式がつながる。
f(x + {\Delta x})=f(x)+ f'(x){\Delta x}+{\cal O}(({\Delta x})^2)の形では、f'(x)は
であると言える。よってf'(x)を「微係数(differential coefficient)」と呼ぶこともある。
以上からわかるように「導関数」と「微係数」は同じものを指す。二つの違いは、「関数から作った、新しい関数(導関数)」と考えるか、「関数を{\Delta x}が小さいところで展開すると出てくる係数(微係数)」と考えるかの違いである。
{\Delta x}や{\Delta y}は「変化量」という意味があった。微分を行う時は、{\Delta x}を0に近づける(連動して、{\Delta y}も0に近づく)。このようにここから先の計算ではしばしば、{\Delta x}や{\Delta y}に「変化量」という意味に加えて「0に近づく」という属性が加わる。この「0に近づけていく変化量」という量を表すために、新しい記号として\mathrm dx,\mathrm dy を導入しよう。つまり、\Deltaの替りに\mathrm d という記号を使って後で\to0という極限を取ることが約束されている変化量を示すことにする。本講義で\mathrm dx とか\mathrm dy のように\mathrm d のついた量は、すべて「微小変化」を表現する量である。
\mathrm dxや\mathrm dyを「微小変化」と呼ぶが、この呼び方は少し説明が不足していて、単に「微小」ではなく「0になる極限を取る」という点が重要である。
あるいは「微小」という考え方がしっくりこない、という人は以下のように考えてもよい。
上の図にも示したように、\mathrm dxや\mathrm dyはあくまで、のような「接線と同じ傾きを斜辺とした直角三角形」の底辺と高さだと考える(この考え方なら微小である必要はない)。そして、\mathrm dx や\mathrm dy そのものの大きさは重要ではなく、
という形(どんな直角三角形か?)、あるいは「\mathrm dx と\mathrm dy の比」が重要であって、\mathrm dx や\mathrm dy そのものは大きさを考えてはいけない(考えても意味はない)量とする。いわば、「接線上で定義された長さのようなもの」が\mathrm dx と\mathrm dy であり、それぞれ一つだけでは意味がなく、「\mathrm dx と\mathrm dy の二つで向きを表現する量」なのである。
{\mathrm dy\over \mathrm dx}は普通の数(大きさを考える意味がある)だし、\mathrm dy=a\mathrm dxと書いた時のaも普通の数である。だから{\mathrm dy\over \mathrm dx}=2や\mathrm dy = 0.7\mathrm dxは意味のある式である。しかし、\mathrm dx=1とか\mathrm dy=0.02などという式には全く意味がない=0だけは、「\mathrm dx=0の極限をとって」のように使うこともあるが、本来はあまりよい使い方ではない。。\mathrm dy や\mathrm dx は、二つがペアになって接線の向きを表現している量であって、\mathrm dx のみの大小を云々してはいけない。
新しい記号を使えば、接線の傾きは{\mathrm dy\over \mathrm dx}になる\mathrm dxや\mathrm dyは、接線という直線の上での長さを表現しているという考え方もできる。。この{\mathrm dy\over\mathrm dx}、厳密に書けば
\begin{equation} {\mathrm dy\over\mathrm dx}=\lim_{{\Delta x}\to0}{{\Delta y}\over {\Delta x}} \end{equation}が導関数(もしくは微係数)である。\mathrm dy と\mathrm dx は微小量、すなわち0になる極限を取るべき量だが{\mathrm dy\over \mathrm dx}は有限な量である。
こうして「傾き」という量をxの関数として表現する方法を我々は得た。最初に書いた{{\Delta y}\over {\Delta x}}という量は、ある「幅」{\Delta x}があって(その「幅」の間での変化の割合として)初めて定義できる量だったが、{\mathrm dy\over \mathrm dx}の方は、「一点」xで決まる量であることに注意しよう。
これで{\mathrm dy\over \mathrm dx}という量が「接線の傾き」という数字として意味のある量となったので、{\mathrm dy\over \mathrm dx}で一つの量、として扱うことにする。この量もまたxの関数であることを表現するため、{\mathrm dy\over \mathrm dx}(x)のように(x)という引数を付けて書く。この書き方はf(x)のfのところに{\mathrm dy\over \mathrm dx}が入った形で、{\mathrm dy\over \mathrm dx}が「関数名」として機能している(だから、{\mathrm dy\over \mathrm dx}で1文字であるかのごとく扱う){\mathrm dy\over \mathrm dx}は「でぃーわいでぃーえっくす」と分子・分母の順にいっきに(「これで一文字だよ」って感じで)読む。分数のようなものではあるが、「でぃーえっくす、ぶんの、でぃーわい」とは読まない。。
これが導関数(もしくは微係数)を{\mathrm dy\over \mathrm dx}(x)のように書く理由である。f'(x)の方はニュートンによる記号で、fという関数からf'を作ったということをよく表現できている記号である。一方{\mathrm dy\over \mathrm dx}はライプニッツの記号で、何の変化と何の変化の比を考えているのかがよく表現できている記号である。これらの記号は使いどころによって一長一短がある「どの変数で微分しているのか」がわかりやすいのはライプニッツの記号の利点であるが、逆に「どの変数で微分しているのか」を明示しない方が便利な時はニュートンの記号の方が使いやすい。たとえば同じ形の関数で従属変数が場合によって違う場合(f(x)=x^2+1とf(t)=t^2+1のような場合)、ニュートンの書き方ならf'(x)=2x,f'(t)=2tとなってどちらも同じでいいが、ライプニッツの書き方だと、{\mathrm df\over \mathrm dx}と{\mathrm df\over \dt}となる。。
\mathrm dy=f'(x)\mathrm dxとした時、f'(x)={\mathrm dy\over \mathrm dx}(x)であるが、これを{\mathrm df\over \mathrm dx}(x)と書くこともある(関数を意味するfを変数の意味にも使っている)。\mathrm dy={\mathrm df\over \mathrm dx}(x)\mathrm dxと書いた場合、導関数を求めるという計算f(x)\to f'(x)は、f(x)\to {\mathrm df\over \mathrm dx}(x)となる。この計算は、あたかも、「f(x)に{\mathrm d \over \mathrm dx}が掛かった」ように見える。そこで、同じ式をf(x)\to {\mathrm d \over \mathrm dx}f(x)と書くこともある。
この{\mathrm d \over \mathrm dx}のような記号yで微分する{\mathrm d \over \mathrm dy}などもあるし、ずっと後では偏微分{\partial\over \partial x}などのような微分演算子も出てくる。を「\newwordE{びぶんえんざんし}{微分演算子}{differential operator}」と呼ぶさらには{\mathrm d \over \mathrm dx}と書くのも面倒臭がってD一文字で表すこともある。。
「演算子(operator)」とは「関数を別の関数に変える操作を表現したもの」である。
この新しい記号を使って微分の計算を行ってみよう。
前に行ったf(x)=x^2の微分を例としよう。まず、 {\Delta y}=2{x\Delta x}+({\Delta x})^2を
\begin{equation} \mathrm dy=2x\mathrm dx+(\mathrm dx)^2 \end{equation}と書きなおす。この式の\mathrm dx\to0,\mathrm dy\to0の極限を考えると
\begin{equation} \underbrace{ \mathrm dy}_{\to0} = \underbrace{2x\mathrm dx}_{\to0} + \underbrace{(\mathrm dx)^2}_{\to0} \end{equation}となって0=0という「当たり前すぎてつまんない(trivialな)式」が出る。何の情報も引き出せない。\mathrm dyと\mathrm dxの比のみが重要なのだから、まず両辺を\mathrm dxで割って
\begin{equation} {\mathrm dy\over\mathrm dx} = 2x + \mathrm dx \end{equation}とした後に\mathrm dx\to0という極限を取ることで、以下の式を得るここで\式{A5}の左辺がいわば「0\div0を計算している」部分である。しかし、{\mathrm dy\over\mathrm dx} は「\mathrm dy と \mathrm dx の割合」を意味しているのであり、その量は\mathrm dx \to0,\mathrm dy\to0となっても0に近づかない。。
\begin{equation} {\mathrm dy\over\mathrm dx} = 2x \end{equation}「\mathrm dxというのは\mathrm dx\to0という極限を取られることを運命づけられている量であることを考えると、右辺第二項の(\mathrm dx)^2をこれ以上計算する必要はない」と考えて
\begin{equation} \mathrm dy= 2x\mathrm dx \end{equation}として{\mathrm dy\over\mathrm dx}=2xを出してもよい。というより慣れてきたらそうするべきである。
2x\mathrm dxも(\mathrm dx)^2も、\mathrm dx\to0とすれば0になるのは同じなのに、(\mathrm dx)^2の方だけを消す理由は何ですか?
2x\mathrm dxと(\mathrm dx)^2を比較して、「(\mathrm dx)^2の方が速く0になる」という判断で消す。具体的には\mathrm dxの次数を考える。2x\mathrm dxは\mathrm dxの1次、(\mathrm dx)^2は\mathrm dxの2次である。\式{A3}のような形が最後に出てくることを考えると、\mathrm dxの次数が1次の量と2次の量があれば、1次の量(\式{A3}の段階では0次の量になっている)だけが最後に残り、2次の量(\式{A3}の段階では1次の量)は消していい。
あくまで「小さい物+もっと小さい物」という形になっている時に「もっと小さい物」の方が消せるのだ、ということに注意しよう。
このようにして消される量は「高次の微小量」と呼ばれる。このような時も「\mathrm dxと(\mathrm dx)^2はオーダーが違う」という言い方をする。2x\mathrm dxは「\mathrm dx の1次のオーダー」、(\mathrm dx)^2は「\mathrm dx の2次のオーダー」である。今の場合オーダーが高いほど小さいので、次数が一番低いオーダー(今は1次)の量だけを考えておけばよい。2次が一番低いオーダーの時は2次を残して3次以上を無視する。何がなんでも2次を無視するのでははなく、「考えている中でもっとも低いオーダーのみを残す」というルールで考える。
以下で「慣れた人」の考えの手順を述べようとは言っても、「もっと慣れた人」はこの程度の計算は覚えてしまうのだけど。。y=x^2の両辺を微小変化させると
\begin{equation} y+\mathrm dy = (x+\mathrm dx)(x+\mathrm dx) \end{equation}{になる。そして「あ、この中にはx\mathrm dxが2個あるな」と考えれば、右辺はx^2+2x\mathrm dxとなる。
あるいは「さらに慣れた人」は以下のように考える。
左辺はyが\mathrm dyだけ変化する。右辺はxが\mathrm dxだけ変化するが、xが二つあるので、
のように変化すると考えれば、\mathrm dy=2x\mathrm dxが出てくる。この計算(左辺においてはy\to\mathrm dy、右辺においてはx^2\to 2x\mathrm dx)のことを「両辺を微分する」と表現する。
用語が少し混乱しているのだが、
のどちらも「微分する」と表現するので注意しよう。
次に図解で考えよう。一辺xの正方形の面積SはS=x^2という式で表現できるy=x^2ではなく{S}=x^2としたが、これはこの図の場合x^2に「面積」という意味があるからである。どんな文字を使うかは本質とは関係ない。。この式を微分した結果の導関数が{\mathrm dS\over \mathrm dx}(x)=2xであることは、
という図から理解できる。この場合、正方形の「縦」の変化による面積変化x\mathrm dxと、「横」の変化による面積変化x\mathrm dxの足算が面積変化2x\mathrm dxとなっている。\mathrm dx^2の部分は無視されている。
y=x^3の微分を図で考えるとすると立方体が大きくなるところを想像するとよい(やってみよう)。