Yy notebook

things I Thought, Heard and Saw.

機械学習やデータ分析のための統計学の基礎知識! 統計学とは??から、標準偏差、回帰分析、相関分析、を具体例でわかりやすく

 

自分は大学は経済学部だったから統計学の授業はとってました。

普通に勉強して、普通に単位をとったけど、やっぱり今はもうほとんど覚えてないです。

(1年しかたってないけど)

 

 

PythonとかRとか使ってたり、機械学習の勉強とかしてたりすると、

「やっぱり統計の知識あったら便利だなー」

 

って思うことが多々あったので、もう一回統計学を基礎から学びなおそう!、と思ってまとめました。

 

昔の自分でもわかるように努めましたが、理解しにくい箇所があったら教えてください

 

 

 

 

 

 

統計学とは

 

統計学の意味を辞書で引いても、

統計の作り方、それによる判断・推論の方法を研究する学問。

 

と、冷たく受け流され、

今度は統計の意味を調べても、

《名・ス他》

(人・物・出来事の)ある集団について、その特性を数量的に測って得られる数値。

と、軽くあしらわれます。

 

ですが、本当は統計学はもっとつかみやすいコンセプトで、

 

統計(学)とは、

「大量のデータを、代表値で表すこと(学問)」

です。

 

 

もっと、「統計学とは」をつかむには、

「統計学は何ができるのか?」を知ると、わかりやすいです。

 

 

統計学は何ができるのか?(例:職人の昇給交渉)

 

ここでは、ある場面を想定してみましょう。

 

あなたは、京都のとある会社で西陣織を作る、雇われ職人です。

(実際は細かく分業されていて、工業組合があるのですが、ここでは0から1まで作る職人だとします。)

 

雇われているので、社長があなたの給料を決めています。

 

集中的な鍛錬を経て、あなたの職人技は会社の中でトップレベルになりました。

 

しかし、給料は他の職人と変わりません。

そこで、社長に昇給の交渉に行くのですが、何円分の昇給が適切なのか全くわかりません。

 

少なすぎると自分に不利益だし、多すぎると下手すればクビです。

どうすれば自分の技術と見合った給与を把握でくるのでしょうか?

 

ここで統計の出番です。

まず全ての西陣織の会社から、一人ひとりの職人の技術力と給与を調べます。

 

その全てのデータと自分自身のデータと、を一つずつ照らし合わせると日が暮れるので、いくつかの代表値を計算します。

 

例えば、平均値や中央値を出せば、大体の職人の給料がわかるし、

 

1番高い給料と1番低い給料を比べることで給料の範囲がわかります。

この範囲が大きいということは、技術力によって給料はどんどん上がることを意味し、

反対もしかりです。

しかし、ある会社の社長が息子を職人として、低い技術力だけど高給料で雇ったりしているなどの 外れ値 が存在している可能性があるので、

標準偏差を使ったりします。

 (標準偏差は下で説明)

 

 

ここまで調べれば、自分の技術力に見合う給料が把握できます。

 

こうして、統計を用いることで、自信をもって社長に昇給交渉がすることができます。

つまり、統計によって

大量のデータを数個の代表値で把握し、それに対する客観的で適切な視点」を得ることができたのです。

 

 

 

 

標準偏差とは

 

さっきでてきた標準偏差という言葉ですが、この値は

データの散らばり具合」 を表します。

 

別の言葉でいうと、

偏差の平均」 です。

 

これだけでは、あんまり分からないので、詳しく見ていきます。

 

 

 

偏差とは

 

偏差は「平均値からどの程度離れているか」、

 

つまり 平均値 - ある値 で求められます。

 

:例)平均点60点、データ①45点、 データ②83点

データ① 60点 ー 45点 = 15

データ② 60点 - 83点 = -23

 

 

標準偏差の求め方

 例から分かるように、偏差を求めると、プラス値もマイナス値も出てきます。

 

 なので、偏差を合計してデータ数で割って、偏差の平均を出そうとすると、プラスとマイナスで打ち消される可能性があります。

 

それを防ぐために、偏差を2乗して、すべての偏差をプラスの値にします

そのあと、それぞれを足して、平均を出します(データ数で割る)

 

最後に、2乗した分を適切な値にするため、自乗根を出します、

つまり、√ をつけます

 

これで標準偏差、偏差の平均、データの散らばり具合、が求められました。

 

 

 

回帰分析とは

 

最近、回帰分析という言葉はよく耳にすると思います。

回帰分析は、

「あるデータとあるデータの関係を数式で表すこと」です

 

言葉だけ見れば、すんごい難しそうだけど使い方は簡単です。

 

 

使い方は簡単

「使い方は簡単」と言ったのは、

偉大な数学者が、考えに考えて、データの関係を表す式を見出してくれたからです。

19世紀ドイツの数学者でガウスという天才が考えてくれました。

 

 

ガウスのについては、この本がわかりやすいです。

数学の知識は必要なく、ガウスの偉大さがわかります。

ガウスの《数学日記》

 

 

ガウスの数学的偉業についてはこの本がおすすめ

(数学の知識は多少必要)

⇩ 

ガウスの数論 わたしのガウス (ちくま学芸文庫)

 

 

 

関係を数式化

回帰分析をする目的は、

片方のデータで、もう片方のデータを予測できるようになること

です。

 

例えば、

1 100人の対象調査で、IQと事故死亡の関係を調べる

2 身長と体重の関係を調べる

 

などのように関係を調べることができます。

 

 

1については、実際に11万人の男性を対象に行われた調査でこの記事でも書いています⇩

 

www.yoji0806.com

 

 

2の例で、身長から体重を予測しようとします。

この場合では、身長を「説明変量」、体重を「目的変量」といいます。

身長のデータがもとなので「説明」、知りたいのは体重なので「目的」となります。

 

そして、説明変量をy、目的変量をxとして、この2つの関係を1次式や2次式で近似します。

 

近似というのは、それぞれのデータに一番近い直線を引くことです。

 

 こんな感じで⇩

http://dmpeli.math.mcmaster.ca/Matlab/Math4Q3/Lecture2-1/Example2-4.jpg

 

y軸に身長を、x軸に体重をとって、そのデータを近似するということですね。

 

 

この近似の仕方をガウスさんが開発してくれたので、私たちはデータを入力するだけで上記のようなグラフが作れます。

 

実際に作ってみたい方は、こちらのサイトで作れます

keisan.casio.jp

 

 

少しだけ数学的な説明になりますが、

どうやってガウスさんは「データとの距離が最小になるような線」を求めたのでしょうか?

 

ガウスさんは、

データと回帰曲線 /直線(近似式がxy平面上に描く線、上の写真の青線)との距離を2乗して、それらを足し合わせた値を最小にする、という方法を考えました。

 

これを「最小2乗法」と呼びます。

 

 

ここで、回帰分析から相関分析に移ります

 

 

 

相関分析とは?

 

ここまでで、回帰分析によってデータ同士の関係を数式・グラフに表せましたね。

 

今度は、その関係の強さ(弱さ)を数値で表します。

これによってデータ同士に関係があるか、ないか、がはっきりしてきます。

 

このデータ同士の関係の強弱を表すことを、相関分析と呼びます。

 

そして、その強弱を定量的に表す数値を相関係数  r でも表される)と呼びます。

 

 

先ほど紹介したこちらのサイトで回帰分析をすると、同時に相関係数も出てきます。

 

それでは、最後に相関係数の見方です。

 

 

相関係数の見方

 

まず相関係数(r)の原則をいうと

①値は-1 ~ +1

②正の相関があれば+、負の相関があれば-の値

③相関(データ同士の結びつき)が強いと±1に近く、弱いと0に近い

 

正の相関・・・xのデータが上昇するとyも伸びる

負の相関・・・xのデータが上昇するとyは下がる

 

この原則に合うように作られた数式がこちらです⇩

http://www.statisticshowto.com/wp-content/uploads/2011/11/pearsonequation.jpg

 

数式は理解する必要は特にないので安心してください(笑)

 

 

 

相関係数の値はバシッと出るのですが、その強さとなると少し曖昧になります。

ですが強さの目安は大体決まっていて、下の表を参照すると、大体の強さ具合がわかります⇩

https://image.slidesharecdn.com/web-140829232722-phpapp02/95/web-32-638.jpg?cb=1409357714

 

 

回帰分析,相関係数は大発見を簡単に!

 

この分析方法で扱うデータは、数値であれば何でもかまいません。

一見全く関係がないようなデータでも、相関があれば大きな発見につながることもあります。

実際に事例はいくつもありますが、最近話題になった

足裏の常在菌の数と、蚊に刺される回数は比例する

という発見は16歳の高校生が発見して、世界中が注目しました。

 

蚊をひきよせる原因とは何か。
高校生が世界的大発見をしました。

「なぜ妹ばかり蚊に刺されるの?」疑問に思った兄。
「本当に何とかしてあげたいと思って」中学生の時に独自に蚊の研究をスタートしました。
衣類や帽子などで蚊の反応を観察した結果、蚊が靴下に興奮することに気づきました。
しかし靴下が特に臭うワケではありませんでした。

そこで、注目したのが足の裏の「菌」です。
蚊に刺されやすい妹は兄よりも足の裏にいる「常在菌」の種類が3倍多いことを突き止めたのです。
足首から下をアルコールで消毒すると、蚊に刺される箇所が3分の1まで減少しました。
妹を思う気持ちが 世界的な大発見へとつながりました。

「足裏拭き」で 蚊に刺されにくくなる!?|NHK1.5ch(NHK1.5チャンネル)

 

 

 

 

 

まとめ

・統計学は「いくつかの代表値でデータを表す学問

・統計を活用することで、大量のデータを把握し、客観的な視点が得られる

・回帰分析、相関分析は使いやすさ抜群(ガウスさんありがとう!)

・何気ない気づきも、統計的な分析によって大発見に!

・ガウスさんありがとう!

 

面白いデータを集めた記事の動画は⇩

 

www.yoji0806.com