データは今後、どのように変化するのか?
線形回帰で、未来を予測してみましょう
まずは概要のビデオをご覧ください。
「線形回帰」を使ってみましょう。例として、100年後の新潟市の気温を予測してみます。まずは、これまでの気温の変化を「直線」で近似(直線に回帰)します。この直線を未来に向けて延長することで、100年後の気温を予測します。予測された気温はどの程度、信頼できるでしょうか? このセクションでは「信頼区間」という統計的な手法を紹介します。
新潟の気温、どこまで上がるのか?
今、手元には新潟市の8月の気温データがあります。このデータの値を青い線でプロットしました。これらを近似する直線を赤い線で示します。この直線を100年後まで延長すると、気温が 27.6度になりました。今よりも 0.9度、上昇することになります。
最小二乗法で近似直線(or 曲線)を得る
このような近似直線は「線形回帰」を使うことで得られます。「最小二乗法」という最適化のしくみにより、直線の傾きと切片が、観測データから一意に定まります。直線ではなく「曲線」も得られます。右図は2次曲線の例です。100年後には今よりも 3.4度、上昇することになりました。
ビデオ教材
詳しくは、ビデオ教材をご覧ください。
PDF教材
03b_気温はどこまで上がるのか(回帰直線と信頼度) 【PDFファイルはこちらへ】
予測はどの程度、当たるのか?
これまでに、線形回帰を使って先々の値を予測する方法をみてきました。予測結果は「値」として得られました。これを点推定といいます。次は、区間推定の話です。予測結果を、ある値として点で示すのではなく、ここからここまでの範囲、というように「区間」で示します。値としてぴたりと当てるのではなく、区間として確率的に予測します。
「移動平均」を使ってみる
観測データに、移動平均を適用すると、どうなるでしょうか? 右側のグラフでは、11年間の移動平均を使いました。青で示されるように、気温の細かい上下の変動、つまり、縦軸方向のバラツキが抑えられて、滑らかな変化となりました。この平滑化されたデータに対して、区間推定を適用した結果、 区間の幅は ±0.4 度となりました。
「予測区間」を狭めるには?
予測値がバラつく幅は、何によって決まるでしょうか? 回帰直線からみて、観測データがバラついていると、予測結果もやはりバラつきます。予測に使ったデータ数が少ないと、バラつきの幅は広がります。データ数が少ないときも、あまり良い結果は期待できません。出来るだけ近い未来について、過去のデータが沢山あって、その殆どが回帰直線上にぴったりと乗っていれば、区間の幅は狭くなるので、予測は当たります。
ビデオ教材
詳細はビデオ教材をご覧ください。
PDF教材
03c_気温はどこまで上がるのか(回帰直線と信頼度) 【PDFファイルはこちらへ】
このセクションで学ぶこと(続き)
以下のコンテンツへ続きます。以下のリンクから選択してみてください。