横浜の8月の気温は年々暑くなっているのか、統計をつかって考えてみる
おはようございます。
最近、統計学の本を読みました。せっかく統計学の本を読んだのだから、何か統計っぽいことをしたいと思っていました。
ただ、統計はデータを集めるのが面倒なんですよね。
何か良い題材はないかと考えていたところ、気象庁が過去の気象データを公開しているのを知りました。
天気と言えば、最近地球温暖化と騒がれていますね。特に8月はとても暑かった記憶があります。
そこで今回は過去の気象データを基に、横浜の8月は暑くなっているかを検証してみたいと思います。
使用するデータ
まず統計で使用するデータですが、リンク先で公開している横浜の気象データを使用します。
横浜を使用する理由は、単に私が横浜在住だからです。特に深い理由はありません。自分に馴染みがある方が、やりやすいですからね。
具体的に使用するデータは、1968年から2018年の8月の最高気温を使用します。51年分のデータを使用します。これだけの期間があれば、暑くなっているかを検証するには十分だと思います。
また年間でも8月は一番暑いですから、地球は暑くなっているのかを検証するには、8月のデータを使用するのが最適でしょう。
これを書いているのは12月と、個人的に若干季節外れ感がありますが、そこら辺は気にしないでおきます。
毎年の8月の最高気温を近似曲線で考察する
まずは1968年から2018年の最高気温をグラフ化してみました。
ブルーのラインは、その年の8月で最も暑かった気温です。
オレンジのラインは、その年の8月1日から8月31日の毎日の最高気温の平均値をとっています。
ブルーのラインだけだと、1日でも飛びぬけて暑い日があると、グラフ上ではその年の最高気温が高くなってしまいます。その年が8月が平均的に暑いのかを区別するために、オレンジのラインも使用しました。
これだけだと良くわからないので、近似曲線を追加します。
ブルーのライン、8月の最高気温の近似曲線の式は、下記となります。
- y = 0.0447x - 54.642
- R2 = 0.277
一方オレンジのライン、8月の各日々の最高気温の平均値は、下記となります。
- y = 0.0299x - 28.988
- R2 = 0.1084
なおyが気温、xが年としています。
結果は、微妙ですね。
傾きがプラスなので、年々暑くなっているようには見えます。
ただし、近似曲線と実際のデータの一致の度合いを表すR2の値が小さいです。
R2は0~1の値を取り、1に近いほど近似式と実際のデータが一致していることを表しています。私が読んだ本ですと、0.6以上あれば、かなり一致しているとの説明がありました。
それでは、年々地球が温暖化しているのは、ガセ情報なのでしょうか?
それは、これだけではまだ断言できません。
このR2の値は、あくまでも近似式が、どれだけ実際のデータに一致しているかを示しています。
全体としては右肩上がりのグラフでも、各年の最高気温のバラツキが大きいと、R2の値は小さくなります。
そこで、そもそも気温が毎年暑くなっていること自体がガセなのか、気温は毎年暑くなる傾向にあるがバラツキが激しぎるのかを見分けたいです。
見分けたいのですが、見分ける方法がよくわからなかったです。
なので、2018年と1968年/1978年/1988年/1998年/2008年は同じような暑さなのかを、検定してみます。
2018年と各年の8月の最高気温をt検定で考察する
2018年と1968年/1978年/1988年/1998年/2008年は同じような暑さなのかを、検定するのにt検定という手法を使ってみます。
t検定で2018年と1968年の8月1日~8月31日の最高気温を比較して、2018年と1968年が同じような暑さなのかを検定してみます。
今回は、エクセルのデータ分析の「t検定 1対の標本による平均の検定」を使用しました。
比較する場所は横浜で同じなので、多分1対の標本と言えるでしょう。(測定場所が変わっていたら、微妙ですが。)
結果は下記の表のようになりました。
1968年だけでなく、1978年~2008年のデータとの検定結果も入れています。
1968年 | 1978年 | 1988年 | 1998年 | 2008年 | 2018年 | |
8月の最高気温 | 33.7 | 35.7 | 32.5 | 34.4 | 35 | 36.1 |
8月の毎日の最高気温の平均値 | 30.20 | 32.08 | 29.82 | 30.48 | 30.48 | 32.14 |
P値(両側検定)/2018年との比較 | 0.032 | 0.922 | 0.003 | 0.014 | 0.089 | - |
2018年と比較して差があるか? | あり | なし | あり | あり | なし | - |
1つの基準としてp値が0.05以下だと、統計的に比較するデータに差があるとみなせるようです。
p値0.05以下という基準でデータを見てみると、1968年、1988年、1998年は2018年と比較して最高気温に差があると言えるようです。実際の最高気温、最高気温の平均値を比較すると、いずれの年も2018年の方が高いので、2018年の方が暑いと言えそうです。
一方1978年と2008年は、2018年と暑さに違いがあると言えないようです。すなわち統計的には同じような暑さであると言えるようです。
5つの年と比較して、三勝二敗と微妙なところをついてきました。
2018年から年が離れているほど、暑さに違いがあると言えそうですが、これだけで結論づけるには早急な気がします。
結論
横浜の気象データを使って、8月の最高気温が最近高くなっているのかを、統計的に判断しました。
結果は、暑くなっている気がしますが、これだけの簡単な分析では良く分からないといったところです。
統計学の本を読んで、ちょいちょいとエクセルで計算してみた程度では、これが限界ですね。これ以上は、きっともっと詳しい人による解析が必要でしょう。
今回データを見ていて感じたのは、昔も結構暑い年はあったんだなということです。例えば1978年は、前後の年と比べてやたらと暑いですね。
きっと一大事だったかと思います。
そんな感じで、今回はここまでです。もう少し統計学を勉強したら、もうちょっと詳しく分析してみたいと思います。