統計検定を受けた!【4級編】受験勉強ノート

当ページのリンクには広告が含まれています。
アイキャッチ画像

思い立って『統計学』を勉強することにした。

動機は不純で、少しでも「ミニロト予想」に役立てばとの想いから。

でも知っていれば絶対に仕事なんかにも役立つだろうし🤔やって損するものでもない。そう考えると思い切って行動できた。

まずは、統計検定【4級】に合格することを目標にする。

このページはノート替わりの「勉強ページ」だ。

日本統計学会の公式認定問題集(参考書)を使って勉強した要点を整理していく。

2022年、無事に4級取得😅

目次

勉強方法の検討

勉強方法の選択肢
  1. 新出題範囲対応 例題集(ネット上)
  2. 過去問題(ネット上)
  3. 日本統計学会認定の標準テキスト
  4. 日本統計学会認定の公式問題集

探し当てた勉強方法は四つ。

ボク🧐はこの内の二つ、③と④で勉強することにした。

時間をかけるからにはきちんと勉強したい。

「公式問題集を、標準テキストで調べながら解く」

まずは、これをやってみる。もちろん買った。

教科書と問題集

③日本統計学会認定の標準テキスト

④日本統計学会認定の公式問題集

公式問題集

なるほど統計学園

上記で買った教科書「データの活用」で紹介してあったサイト

「なるほど統計学園」だ。

総務省が子供向けに開設したようだが😅こんなの子供が読むとは思えんな。

初級と言っても、語り口がやさしいだけで結構むずかしいことが書いてある。

むしろ、ボク🤠くらいの方が ちょうど良いのではなかろうか。

たとえば、統計検定の勉強過程で 困ったり、疑問なんかが出てきたとする。

このサイトの中を探して解決できるようになったら、もうずいぶん知識がついているんだろうね。

つまり、このサイトを使いこなせるようになる過程で、かなり統計の理解レベルが上昇すると思う。

これから統計学習での調べ物は、優先して このサイトで調べることにする。

ただし、サイト内検索機能がないのが大変残念だ🥴

勉強ノート

このページをノート替わり使う。

各年ごとに、調べなきゃわからなかったことや、勉強しなきゃ知れなかったことを書き留めるのだ。

誰かに言われて勉強している訳ではない😁好きで始めたことだ。好きなように、つまみ食いのように「わがまま」に勉強していく。落ちようが、受かろうが、ボク🤠の勝手なのだから。

こんな気持ちで勉強に取り組むのは初めてだな。

用語

当たり前のように知ってなきゃいけないような単語たちだ。

でも、今回の勉強で初めて知った言葉。

知らなかったことに少なからずショックを受けたんだ。

二度と忘れないようにここへ書き記しておく。

PPDAC

有名なのは「PDCA」だが、生産的活動のための正しい行動パターンを説明したもの。Plan→Do→Check→Actionの頭文字だ。

この「PPDAC」は、問題を解決に導くための行動パターンを説明したものと考えよう。

頭文字と意味は、

Problem;問題を明確化して、仮説を立てる

Plan;不足している知識を取得し、データの具体的な収集方法を計画する

Data;データを収集し、表を作成するなどして、整備する

Analysis;グラフを作成し、状況を見えるようにして、問題を分析する

Conclusion;分析した結果を解釈し、仮説の評価を行い、新たなアイデアなども含め、レポートに整理する

常に意識して行動出来れば、失敗も減るだろうね。

上に記録した「なるほど統計学園」にわかりやすい説明があった。→コチラ

確率の記号「P」

計算式なんかで、確率は「P」で表される。

今まで気にも留めなかったが😅「probability」の頭文字なんだって。

覚えておこう。

統計分析の分類

記述統計

手元にあるデータの持つ情報を明らかにするための分析。

全データから結果を分析するってことね。

推測統計

手元にあるデータは全体の一部と考え、一部のデータから手元にない全体を推測する分析。

結果から未来や全体を予測するってことね。

データの種類

答えは感覚でわかるけど、使いなれない言葉だからメモっておこう( ..)φメモメモ

性質事例
質的データ分類や種類国籍、血液型、科目、趣味、学年、生まれ月など
※見た目が数字の項目に注意!
(和や平均に意味をなさないものは質的データ)
量的データ数量身長、体重、気温、本数、点数など

量的データをさらに分類【連続データと離散データ】

・連続データ事例
 →身長、体重、時間、気温など

・離散データ事例
 →サイコロやトランプの数字、人数、個数、
  試験の点数、そして🤠ミニロトの出目など

解りやすかった記事;統計 LIFE

おもしろかった記事;データを読む力を高める

※代表値

集団の中心的傾向を示す値を「代表値」といい、主に平均値、中央値、最頻値などを差す。

「同様に確からしい」の意味

直訳すると「同じように起こる可能性がある」という意味と解釈する。

サイコロ=確率1/6を使った問題で出てくる可能性が高い。

要は、

「確率通りの動きをするサイコロだよ」

「出る数字に偏るような不良品ではないよ」などと言いたいわけだな。🤠

移動平均

たとえば、EXCELでいうコレ(下図)ね。🤠

ミニロト予想の実戦でも運用しながら研究中!→実戦使用の事例はコチラ

※ 最新~ n=5レンジ
※ ~中央~ n=5レンジ

標準偏差

標準偏差とは、
(測定値と平均値との差)² を合計して、データ(測定値)の個数で割り、その平方根をとった値。

ベル型の特徴を持つ正規分布ならば、
「平均値ー標準偏差」と「平均値+標準偏差」の区間に、

全体の68%の値が含まれることになる。

日本統計学会認定の標準テキスト「データの活用」P67より

指数と成長率

時系列データにおける用語で、

指数とは、

自分で選んだ任意のポイントを基準に決めて、他のポイントを相対値で表現したもの。

ある一点からの「増減率」だ。

基準点を「100」に置き換えて、他点を百分率で表すことが多い。(解りやすい)

成長率とは、

上記の任意のポイントを「ひとつ前のデータ」に限定された「増減率」の形。

たとえば、対前年比などがよく目にする事例だ。

度数分布

「中央値」

データの max値 と min値 の中央値だと思ったら違った。

頻度総数(データの大きさ)の「真ん中位」が含まれる階級の事だ。

表➊で例えれば、

データの大きさが 20(偶数)なら、10位と11位が含まれる階級そのものを指す。25.5が正解となる問題もあるね。

データ
(範囲)
頻度中央値
5~10mm0
10~15mm 1
15~20mm 2
20~25mm 8👈10位を含む
25~30mm 6👈11位を含む
30~35mm 3
35~40mm 0
40~45mm 0
20👈データの大きさ
表➊(以上~未満)

表➋例えれば、

データの大きさが 31(奇数)なら、16位だ。総数が偶数と奇数で変わる事に注意だ。

データ
(項目)
頻度中央値
タイプA1
タイプB4
タイプC10
タイプD2👈16位を含む
タイプE1
タイプF4
タイプG7
タイプH2
31👈データの大きさ
表➋

「このデータの中心は?」と問われたときは「中央値」と回答するのが良い。特に左右均等でない歪んだ分布では、平均値ではなく中央値が有効であると言いたいようだ。

日本統計学会認定の標準テキスト「データの活用」P213より

「階級値」

問題の文中に「階級値」とでてきたら、

「階級の下限と上限の真ん中の値」のことを指す。

表➊で考えると以下の表❸となる。

データ
(範囲)
階級値
5~10mm7.5
10~15mm 12.5
15~20mm 17.5
20~25mm 22.5
25~30mm 27.5
30~35mm 32.5
35~40mm 37.5
40~45mm 42.5
表❸(以上~未満)

「範囲」と「外れ値」

度数分布表は奥が深い😅簡単そうで、案外ややこしかったなぁ。

度数分布における「最大値」と「最小値」、そして「外れ値」。

何度も間違えた😵なんなら今でも間違えてしまう。

ここに復習をしておこう。もう間違わないように。

「四分位範囲」と「範囲」

(四分位範囲)=(第三四分位数)ー(第一四分位数)

※この資料がわかりやすかったぞ!→統計WEB

(範囲)=(最大値)ー(最小値)
     ※ 外れ値を除く

「最大値」「最小値」「外れ値」

良く知らなくて、とても参考になったのは「外れ値」だ。

実務でデータを扱っているが、この「外れ値計算」の存在を知らなかったので 直感的に察知して惑わされないように頑張ってた。

でも、そうか、そうか、四分位範囲の「1.5倍」を各四分位数へ足したラインが上下限とすればいいのか。いいこと知った。

よく解ってなくて間違えたのは、「最大値」「最小値」

ポイントは以下だった。

  • 最大値は?の問題に、
    間違って「上限ライン」の計算値をそのまま回答して間違った。正解は、「上限ライン」の内側にある「数値」なのだ。

  • 最小値は?の問題に、
    間違って「下限ライン」の計算値をそのまま回答して間違った。正解は、「下限ライン」の内側にある「数値」なのだ。

ポイントを自分でグラフ化してみた。

共通の n=30データで「箱ひげ図」と「ヒストグラム」を書いた。

視覚的な理解を試みたんだ。

ちなみに、この図表は「手計算」で出した値に近づけてある。

EXCEL計算は、手計算と違ってくるので要注意だ。詳しくは、後の項目「箱ひげ図」で考察する。

「平均値」と「外れ値」

「平均値の算出時に外れ値は除くのか」で、少々迷った。

いろいろと調べた結果、大切なのは『なぜ外れたのか』だと思う。

真の実力を診断する際は、故障や不具合の時に取れたデータは当然外すべきでしょう。

でも、状況把握が目的ならトラブル込みで考えねばならない時もある。

答えは、「場合による」なんでしょうね。

※この資料がわかりやすかったぞ!→統計学が わかった!「外れ値の対策」


統計検定4級の公式問題集では「外れ値も平均算出に入れる」としてある。公式の設問なんかで迷ったときは入れた方が良さそうだ。
(P265;2019年11月-問9の解説より)


外れ値が存在する場合の「分析方法」としては、
『外れ値を除いた分析』と『外れ値を含んだ(除かない)分析』と、両方の結果を出すのが良いとあった。
(日本統計学会認定の標準テキスト「データの活用」P213より)

分布の特徴 「歪む」と「裾を引く」

日本統計学会認定の標準テキスト「データの活用」P124~125より

分布と特徴を表現する言葉として、

「歪む」と「裾を引く」というものが幾度となくでてきた。

たとえば下図のように、左右対称のきれいな正規分布が広がることを言う。

図は右に広がっているから、「右に歪む」または「右に裾を引く」と言う。

この二つの表現は全く同じことを差していると理解した。

これは使える!箱ひげ図

全然知らんかったけど😋これはかなり使えそうやなぁ~。

箱ひげ図、box plotとも呼ばれる。

【知らなかったので調べた】

すごく解りやすい動画を見つけたのでストックしておこう。

  • URLをコピーしました!
目次