【悪用厳禁】数字にダマされないデータ分析の基礎|平均、中央値、分散、標準偏差

【悪用厳禁】数字にダマされないデータ分析の基礎|平均、分散、標準偏差 ビジネス
【悪用厳禁】数字にダマされないデータ分析の基礎|平均、分散、標準偏差
スポンサーリンク

現代では個人でも当たり前のように情報発信しています。

悲しいかな、、中には詐欺まがいの人がいるのも事実です。

情報の信頼性を高める方法の1つとして「数字を利用する」ことが重要だと言われています。

数字は表現方法によって良く見せることも、悪く見せることもできます。

ぼくはこれまで50以上もの成果を上げているブログなどを読んできました。
そこで数字の見せ方による印象操作を学ぶことができました。

この記事ではデータ分析の基礎となる「平均」「分散」「中央値」「標準偏差」について紹介します。

以下に当てはまる項目がある方は参考にしてください。

・データ分析を学びたい
・数字にダマされない知識をつけたい
・まずデータ分析で知ることは何?
・数字に対する見方がわからない
・分散、標準偏差ってなに?

まず、数字が人をダマすことについて説明します。
どういった数字の書き方が人の印象を変えるのか、具体例を含めて紹介していきます。

そのあと、データ分析の基礎である「平均」「中央値「分散」「標準偏差」の利用方法、計算方法について説明します。

【余談】
IT技術でデータ分析、具体的には機械学習について興味がある方は『意外と知らない機械学習の基礎知識・種類|データサイエンティストのスキルを身につける』を参考にしてください。

数字は人をダマす

数字は人をダマす

いきなりですが、「月間100万個売れた商品!」と言われたらどう思いますか?

・そんなに売れてるなら良い商品だ
・流行っているモノなんだぁ〜
・月に100万個も売れるなんてすごい!

このように考えた方は、是非この記事を最後まで読んでください。
数字にダマされている可能性が高いです。

確かに月100万個も売れることはすごいことです!
しかし、それは毎月続いていることなのでしょうか?
たまたま良かった月の数字を伝えているだけかもしれません。

平均的に見ると、月1,000個程度ということもありえるでしょう。


また、単価も気になります。
仮に1,000円で売れたとしたら、10億円です。
半端ないですねw

期間限定で1円セールをしたかもしれません。
それでも100万円なので、すごいとは思いますがw

このように数字は良い面だけを表現することができます!

他の表現についても紹介します。

「缶コーヒーを我慢すれば利用できる」

直接的に数字は使われていないのですが、読者には数字をイメージさせます。
「缶コーヒー = 100円程度」です。

この文章には2つのテクニックが使われています。
・具体的なモノでイメージさせる
・毎日計算


まず、「缶コーヒー」という日常ワードを利用することでイメージが容易になります。
日常の些細なモノであるために、「自分でも利用できる」ということを伝えることもできます。

さらに暗喩的に「毎日缶コーヒーを飲む」という仮定をおいています。
毎日100円かかる、つまり、「月額でいうと3,000円」程度です。

いかがでしょうか。
ぼくはお金がないので、、、「月額3,000円」はあっさりと購入することができないです。。。

このように同じ数字であっても視点をズラすことで印象を変えることもできるのです。

「平均年収467万」

「平均年収467万」は日本の平均年収です。
みなさんはどう感じますか?

ぼくは「自分はサラリーマン時代少しだけ平均より下だったなぁー」程度です。
つまり、大してなにも感じませんw

それはあまり意味のない数字だからです。

まずどういった人を対象とした平均なのか、ということです。
上場企業の社員の平均の場合は低いですし、全国民を対象としているのなら高く感じます。

ちなにみ上記の「平均年収467万」の対象は「1年を通じて勤務した給与所得者」でした。
つまり、アルバイトやパートも含まれます。

数字の対象が何になるのか確認するクセをつけましょう。

よく平均年収が話題になりますが、個人的に「年収の中央値」のほうが知りたい情報に近いと考えています。
「中央値」については後ほど解説します。

データ分析の基本知識

データ分析の基本知識

データ分析を上手に使うことができたら、上記のように良く見える数字を割り出すこともできるでしょう。

しかし、もっと重要なことは課題を分析して解決していける、ということです!

データ分析で成果をあげる企業、人には以下の共通点があります。

・分析対象のデータがそろっている
・目的と課題が明確になっている
・データ分析に対する知識があり、学習を続けている
・発想力がある

この記事では深く取り上げませんが、なにかで成果をあげたい場合は、データ分析が必須なので、上記について意識しておきましょう。

それではデータ分析の具体的な4つの方法を説明していきます。
以下の人物ごとの点数表を例に使用します。

Aさん Bさん Cさん Dさん Eさん
65 80 95 45 50

平均

学校で習ったよく使われているものです。

平均とは「数の集合の中間的な値」のことです。

計算方法は以下になります。

平均 = 全数値の合計 ÷ 個数
ーーーーーーーーーーーーーー
今回の場合:(65+80+95+45+50)÷5=67

中央値

中央値とは小さい順に並べた際の真ん中に当たるものです。

今回の場合並べると以下のようになります。

Dさん Eさん Aさん Bさん Cさん
45 50 65 80 95

つまり、中央値はAさんの65点ということになります。

データの数が多いときに、使用すると平均以上に知りたい情報が入手できる可能性が高いです。

分散

「分散」は数値のばらつきの度合いを示したものになります。

分散 = (各要素 ー 平均値)² ÷ 個数

ちょっとイメージしにくいので、例を元に計算していきます。
2乗にしている理由としては、数字の開きを知りたいために、プラス、マイナスを同じにするためです。

人物 Aさん Bさん Cさん Dさん Eさん
点数 65 80 95 45 50
平均との差分(平均:67) -2 13 28 -22 -17

計算式は以下になります。

{(-2)² + (13)² + (28)² + (-22)² + (-17)² } ÷ 5 = 346

これだではよくわからない数字ですが、たとえば、英語の分散値、数学の分散値と教科ごとに割り出したら、どの教科が点数に開きがあるのか把握することができます。

標準偏差

「分散」は2乗して計算していました。
そのため、比較することに利用することができましたが、数字自体には意味を持ちませんでした。

そこで「分散」を意味ある数字にしたものが「標準偏差」です。
「分散」は2乗した数字だったため、それの平方根が「標準偏差」です。

標準偏差 = √分散

例だと分散が346だったため、平方根、つまり「標準偏差」は18.6になります。

数字の開きの平均が18.6点だったことがわかります。

最後に

数字によって良い印象を持たせることも、悪い印象を持たせることもできることがわかったかと思います。

この記事では基本的な「平均」「中央値」「分散」「標準偏差」の利用方法と計算方法を紹介しました。

情報発信する際に適切な方法で利用してみてください!

データ分析にはもっといろいろな計算方法があります。
その他の方法については後日紹介していきます。

最後まで読んでくださり、ありがとうございました!!!

コメント

タイトルとURLをコピーしました