00. 実況中

統計検定を受ける!【4級編】受験勉強ノート

統計検定4級

思い立って『統計学』を勉強することにした。

動機は不純で、少しでも「ミニロト予想」に役立てばとの想いから。

でも知っていれば絶対に仕事なんかにも役立つだろうし🤔やって損するものでもない。そう考えると思い切って行動できた。

まずは、統計検定【4級】に合格することを目標にする。

このページはノート替わりの「勉強ページ」だ。

日本統計学会の公式認定問題集(参考書)を使って勉強した要点を整理していく。

勉強方法の検討

勉強方法の選択肢
  1. 新出題範囲対応 例題集(ネット上)
  2. 過去問題(ネット上)
  3. 日本統計学会認定の標準テキスト
  4. 日本統計学会認定の公式問題集

探し当てた勉強方法は四つ。

ボク🧐はこの内の二つ、③と④で勉強することにした。

時間をかけるからにはきちんと勉強したい。

「公式問題集を、標準テキストで調べながら解く」

まずは、これをやってみる。もちろん買った。

教科書と問題集

③日本統計学会認定の標準テキスト

教科書って感じね

④日本統計学会認定の公式問題集

解説付きの問題集だ

なるほど統計学園

上記で買った教科書「データの活用」で紹介してあったサイト

「なるほど統計学園」だ。

総務省が子供向けに開設したようだが😅こんなの子供が読むとは思えんな。

初級と言っても、語り口がやさしいだけで結構むずかしいことが書いてある。

むしろ、ボク🤠くらいの方が ちょうど良いのではなかろうか。

たとえば、統計検定の勉強過程で 困ったり、疑問なんかが出てきたとする。

このサイトの中を探して解決できるようになったら、もうずいぶん知識がついているんだろうね。

つまり、このサイトを使いこなせるようになる過程で、かなり統計の理解レベルが上昇すると思う。

これから統計学習での調べ物は、優先して このサイトで調べることにする。

ただし、サイト内検索機能がないのが大変残念だ🥴

勉強ノート

このページをノート替わり使う。

各年ごとに、調べなきゃわからなかったことや、勉強しなきゃ知れなかったことを書き留めるのだ。

誰かに言われて勉強している訳ではない😁好きで始めたことだ。好きなように、つまみ食いのように「わがまま」に勉強していく。落ちようが、受かろうが、ボク🤠の勝手なのだから。

こんな気持ちで勉強に取り組むのは初めてだな。

用語

当たり前のように知ってなきゃいけないような単語たちだ。

でも、今回の勉強で初めて知った言葉。

知らなかったことに少なからずショックを受けたんだ。

二度と忘れないようにここへ書き記しておく。

PPDAC

有名なのは「PDCA」だが、生産的活動のための正しい行動パターンを説明したもの。Plan→Do→Check→Actionの頭文字だ。

この「PPDAC」は、問題を解決に導くための行動パターンを説明したものと考えよう。

頭文字と意味は、

Problem;問題を明確化して、仮説を立てる

Plan;不足している知識を取得し、データの具体的な収集方法を計画する

Data;データを収集し、表を作成するなどして、整備する

Analysis;グラフを作成し、状況を見えるようにして、問題を分析する

Conclusion;分析した結果を解釈し、仮説の評価を行い、新たなアイデアなども含め、レポートに整理する

常に意識して行動出来れば、失敗も減るだろうね。

上に記録した「なるほど統計学園」にわかりやすい説明があった。→コチラ

確率の記号「P」

計算式なんかで、確率は「P」で表される。

今まで気にも留めなかったが😅「probability」の頭文字なんだって。

覚えておこう。

統計分析の分類

記述統計

手元にあるデータの持つ情報を明らかにするための分析。

全データから結果を分析するってことね。

推測統計

手元にあるデータは全体の一部と考え、一部のデータから手元にない全体を推測する分析。

結果から未来や全体を予測するってことね。

データの種類

答えは感覚でわかるけど、使いなれない言葉だからメモっておこう( ..)φメモメモ

性質事例
質的データ分類や種類国籍、血液型、科目、趣味、学年、生まれ月など
※見た目が数字の項目に注意!
(和や平均に意味をなさないものは質的データ)
量的データ数量身長、体重、気温、本数、点数など

量的データをさらに分類【連続データと離散データ】

・連続データ事例
 →身長、体重、時間、気温など

・離散データ事例
 →サイコロやトランプの数字、人数、個数、
  試験の点数、そして🤠ミニロトの出目など

解りやすかった記事;統計 LIFE

おもしろかった記事;データを読む力を高める

※代表値

集団の中心的傾向を示す値を「代表値」といい、主に平均値、中央値、最頻値などを差す。

「同様に確からしい」の意味

直訳すると「同じように起こる可能性がある」という意味と解釈する。

サイコロ=確率1/6を使った問題で出てくる可能性が高い。

要は、

「確率通りの動きをするサイコロだよ」

「出る数字に偏るような不良品ではないよ」などと言いたいわけだな。🤠

移動平均

たとえば、EXCELでいうコレ(下図)ね。🤠

※ 最新~ n=5レンジ
※ ~中央~ n=5レンジ

標準偏差

標準偏差とは、
(測定値と平均値との差)² を合計して、データ(測定値)の個数で割り、その平方根をとった値。

ベル型の特徴を持つ正規分布ならば、
「平均値ー標準偏差」と「平均値+標準偏差」の区間に、

全体の68%の値が含まれることになる。

日本統計学会認定の標準テキスト「データの活用」P67より

指数と成長率

時系列データにおける用語で、

指数とは、

自分で選んだ任意のポイントを基準に決めて、他のポイントを相対値で表現したもの。

ある一点からの「増減率」だ。

基準点を「100」に置き換えて、他点を百分率で表すことが多い。(解りやすい)

成長率とは、

上記の任意のポイントを「ひとつ前のデータ」に限定された「増減率」の形。

たとえば、対前年比などがよく目にする事例だ。

度数分布

「中央値」

データの max値 と min値 の中央値だと思ったら違った。

頻度総数(データの大きさ)の「真ん中位」が含まれる階級の事だ。

表➊で例えれば、

データの大きさが 20(偶数)なら、10位と11位が含まれる階級そのものを指す。25.5が正解となる問題もあるね。

データ
(範囲)
頻度中央値
5~10mm0
10~15mm 1
15~20mm 2
20~25mm 8👈10位を含む
25~30mm 6👈11位を含む
30~35mm 3
35~40mm 0
40~45mm 0
20👈データの大きさ
表➊(以上~未満)

表➋例えれば、

データの大きさが 31(奇数)なら、16位だ。総数が偶数と奇数で変わる事に注意だ。

データ
(項目)
頻度中央値
タイプA1
タイプB4
タイプC10
タイプD2👈16位を含む
タイプE1
タイプF4
タイプG7
タイプH2
31👈データの大きさ
表➋

「このデータの中心は?」と問われたときは「中央値」と回答するのが良い。特に左右均等でない歪んだ分布では、平均値ではなく中央値が有効であると言いたいようだ。

日本統計学会認定の標準テキスト「データの活用」P213より

「階級値」

問題の文中に「階級値」とでてきたら、

「階級の下限と上限の真ん中の値」のことを指す。

表➊で考えると以下の表❸となる。

データ
(範囲)
階級値
5~10mm7.5
10~15mm 12.5
15~20mm 17.5
20~25mm 22.5
25~30mm 27.5
30~35mm 32.5
35~40mm 37.5
40~45mm 42.5
表❸(以上~未満)

「範囲」と「外れ値」

度数分布表は奥が深い😅簡単そうで、案外ややこしかったなぁ。

度数分布における「最大値」と「最小値」、そして「外れ値」。

何度も間違えた😵なんなら今でも間違えてしまう。

ここに復習をしておこう。もう間違わないように。

「四分位範囲」と「範囲」

(四分位範囲)=(第三四分位数)ー(第一四分位数)

※この資料がわかりやすかったぞ!→統計WEB

(範囲)=(最大値)ー(最小値)
     ※ 外れ値を除く

「最大値」「最小値」「外れ値」

良く知らなくて、とても参考になったのは「外れ値」だ。

実務でデータを扱っているが、この「外れ値計算」の存在を知らなかったので 直感的に察知して惑わされないように頑張ってた。

でも、そうか、そうか、四分位範囲の「1.5倍」を各四分位数へ足したラインが上下限とすればいいのか。いいこと知った。

よく解ってなくて間違えたのは、「最大値」「最小値」

ポイントは以下だった。

  • 最大値は?の問題に、
    間違って「上限ライン」の計算値をそのまま回答して間違った。正解は、「上限ライン」の内側にある「数値」なのだ。

  • 最小値は?の問題に、
    間違って「下限ライン」の計算値をそのまま回答して間違った。正解は、「下限ライン」の内側にある「数値」なのだ。

ポイントを自分でグラフ化してみた。

共通の n=30データで「箱ひげ図」と「ヒストグラム」を書いた。

視覚的な理解を試みたんだ。

ちなみに、この図表は「手計算」で出した値に近づけてある。

EXCEL計算は、手計算と違ってくるので要注意だ。詳しくは、後の項目「箱ひげ図」で考察する。

「平均値」と「外れ値」

「平均値の算出時に外れ値は除くのか」で、少々迷った。

いろいろと調べた結果、大切なのは『なぜ外れたのか』だと思う。

真の実力を診断する際は、故障や不具合の時に取れたデータは当然外すべきでしょう。

でも、状況把握が目的ならトラブル込みで考えねばならない時もある。

答えは、「場合による」なんでしょうね。

※この資料がわかりやすかったぞ!→統計学が わかった!「外れ値の対策」


統計検定4級の公式問題集では「外れ値も平均算出に入れる」としてある。公式の設問なんかで迷ったときは入れた方が良さそうだ。
(P265;2019年11月-問9の解説より)


外れ値が存在する場合の「分析方法」としては、
『外れ値を除いた分析』と『外れ値を含んだ(除かない)分析』と、両方の結果を出すのが良いとあった。
(日本統計学会認定の標準テキスト「データの活用」P213より)

分布の特徴 「歪む」と「裾を引く」

日本統計学会認定の標準テキスト「データの活用」P124~125より

分布と特徴を表現する言葉として、

「歪む」と「裾を引く」というものが幾度となくでてきた。

たとえば下図のように、左右対称のきれいな正規分布が広がることを言う。

図は右に広がっているから、「右に歪む」または「右に裾を引く」と言う。

この二つの表現は全く同じことを差していると理解した。

これは使える!箱ひげ図

全然知らんかったけど😋これはかなり使えそうやなぁ~。

箱ひげ図、box plotとも呼ばれる。

【知らなかったので調べた】

すごく解りやすい動画を見つけたのでストックしておこう。

【解らなかったので書いてみた】

第一四分位と、第三四分位を EXCELで 算出すると 混乱した。

手計算した値と どうしても合わなかったんだ。

更に とんでもない事に XCEL同士でも 誤差 が出る。 「箱ひげ図」と「QUARTILE.INC関数」でも、四分位数に 誤差 が出るケースもあった。

いろいろ調べた結果、「箱ひげ図考案者Tukeyオリジナル」と「QUARTILE.INC関数」で定義に若干のズレがあると理解した。

※この資料がわかりやすかったぞ!→教師のEXCEL口座

※この資料がわかりやすかったぞ!→四分位数の違いについて

使うシチュエーションは 結局EXCELなので、状況だけは把握しておかねばなるまい。自分で書いてみた。

【自分のデータでも試してみた】

ミニロト=1,163回分の EXCELデータで作ってみた。
解りやすいし、一瞬できれいに作れた。これは今後の参考になるゾ!😉

幹葉図(みきはず)

幹葉図なんて知らんやった。

数字を分解して、末尾だけを度数分布に並べていく手法なのね。

知ってたら便利そうやね😄仕事でも使えそう。

1の位まで小数第1位度数
01683
101
20
3892
40
50
621
7962
80
93573
10721115
1141
データの大きさ18


データ

0.1
0.6
0.8
1.0
3.8
3.9
6.2
7.9
7.6
9.3
9.5
9.7
10.7
10.2
10.1
10.1
10.1
11.4

クロス集計表

複数の項目を組み合わせて度数を集計した表。

いちばん使う形やね。って言うか😅これしか使わんでしょ。大抵はコレよ!

散々使ってきてたのに🥴名前は知らんかった。

コレなんかそうでしょ👇このブログでもいっぱい使ってるやん!!(笑)

2022年バレンタインジャンボ宝くじ

国勢調査

こんな問題出るの?!😟テキストにも載ってないじゃん!!

検定すべき内容なの?不思議。いちおうメモっとこ。

➊ 調査対象は、同居している家族単位である。生活費を仕送りしていたとしても、別居していれば別世帯としてカウントされる。

➋ 常住していれば、外国人も調査対象である。該当住居に3カ月以上住んでいるか、または住む事になっているかが条件である。

❸ 2015年(平成27年)から、オンライン調査も行っている。

❹ 調査は5年に一度、西暦で5の倍数年に実施される。末尾=0の年は「大規模調査」、末尾=「簡易調査」となっている。初回は1920年(大正9年)に行われた。

❺ 調査の目的は、国内の人および世帯の実態を把握し、各種行政施策その他の基礎資料を得ることである。

ちょっと脱線!

独学なのでのんびりいこう!何か気になったらどんどん脱線するのだ。😁

ミニロト確率の分母

ボク🤠のミニロト予想は、全31数字の中から、20個を選び、20口の組み合わせを作る。

これがどのくらいの確率なのか、まず分母を計算する。すべての組み合わせは何種類あるのかが分母となる。

調べると、20個の中から5個取り出し且つ「並べる順序は考慮しない」ので「20C5」となり、15,504種類の組み合わせが正解で、一瞬で計算できるらしい。

こういうのを、ササっと軽やかにできるようになるため統計の勉強を始めたのだが😢今はまだできない。

今回は後学のため、手計算で全種を並べて『15,504種類』あるか数えてみた!👍結果、ばっちり合ったよ。

5/20個数字の分母=15,504種類

手計算と言っても、EXCELの関数を使って下にズルズルっとコピーしたらすぐできるヤツね。(関数を考えるのに半日くらい😅思考索互した)

ちなみに、せっかく苦労してEXCEL関数を作ったのでミニロトそのものの数も数えてみた。

公式でも言っているミニロトの確率は、「1/169,911」だ😂ぴったり合った!

5/全31数字の分母=169,911種類

10年くらい前にもやったことあるけど、あの時はホントに手で並べたのでムチャクチャ時間がかかったんですよ!

今回はボク😜のEXCELテクニックも向上してるのですぐ出来たよ。

ボク🧐のミニロト予想は以下の論法となります。

  1. 毎週20口買うので、確率/週は「20/169911」≒『1/8500』
  2. 数字は20個に絞るので、確率/週は「20/15504」≒『1/780』
  3. ただしこれは、オールヒットであることが前提である🤡👑
  4. だから、オールヒットの確率を上げるため日々精進!
  5. だから、パターンを読む力を向上するため日々精進!

安心!カンタン?受験の手順

4級受けて落ちた😅けど、ネットで調べた限りではかなり受験しやすそうだね😄安心だ。

手続きがカンタンに済むかは受けてみないとね。

場所や日時は、

まず最寄りの会場を自分で選び、選んだ会場で受験日を選べるようだ。(CBT方式試験

いくつか見てみたら、

関東から南の地域では だいたい20日/月くらいは試験を受けれる日だった。

北日本はあまりやってないみたいね。

挑戦は続く!

1度目は不合格😵

先日、試験を受けて不覚にも『不合格』だった。😭

60分で30問、思ってたよりきつかったなぁ。

三分の二くらいを解いたところで時間切れ。年を取り、処理速度がますます落ちてることをリアルに体感した。

頭に無かったけど、よくよく考えると「1問=2分で解かなきゃいけない」んだ。

舐めててました、ごめんなさい。

次までに、時間を測りながら問題集を繰り返す勉強法で鍛えなおすぞ。

こんな事じゃ4級に受かっても 3級はきびしいかなぁ。😰