發表文章

目前顯示的是有「統計學」標籤的文章

資料分布分析

資料分布分析 次數分配表 是將原始資料依目的分組後,計算各組次數整理而成的表格, 來顯示資料分布狀況 。 分組方法通常有以下幾種: 特定屬性值分組,例如依性別分成男及女2組。 特定屬性數值區間分組,例如將測驗成績分成0~60、61~90及90~100之3組數值區間。   步驟 說明 Pandas 標記組別 將紀錄分組,組別數目不能太多及太少。可視為將紀錄新增一個有限組別欄位。離散值如值種類數適合,可省略此步驟。 例如將數值1分類為10以下組。 pd.cut 分組 將紀錄按類別分組。例如,1、3、11、23、8分成10以下組,包含1、3、8之紀錄及10以上組,包含11、23之紀錄。 df.groupby 統計 統計每組紀錄數。承上例,10以下組次數為2;10以上組次數為3。 groupby.size

估計有限母體比例所需樣本數

有限母體樣本定理甲: 自元素個數為N之有限母體,如要求信賴水準為c,樣本比例$\hat{p}$與母體比例p誤差不超過e,則至少需抽取n=$\frac{(Z_c)^2\frac{p(1-p)}{e^2}N}{(Z_c)^2\frac{p(1-p)}{e^2}+N-1}$個樣本。 證明: 中央極限定理. q=1-p. $e=Z_c\sqrt{\frac{pq}{n}}\sqrt{\frac{N-n}{N-1}}.$ $e^2=(Z_c)^2\left(\frac{pq}{n}\right)\left(\frac{N-n}{N-1}\right).$ $n=\left(Z_c\right)^2\left(\frac{pq}{e^2}\right)\left(\frac{N-n}{N-1}\right).$ $n_0=\left(Z_c\right)^2\frac{pq}{e^2}.$ $n=\frac{n_0\left(N-n\right)}{N-1}.$ $n(N-1)=n_0(N-n)=n_0N-n_0n.$ $n(N-1)+n_0n=n(n_0+N-1)=n_0N.$ $n=\frac{n_0N}{n_0+N-1}=\frac{(Z_c)^2\frac{pq}{e^2}N}{\left(Z_c\right)^2\frac{pq}{e^2}+N-1}.$  有限母體樣本定理乙: 自元素個數為N之有限母體,如要求信賴水準為c,樣本比例$\hat{p}$與母體比例p誤差不超過e,則抽取n=$\frac{(Z_c)^2\frac{0.25}{e^2}N}{(Z_c)^2\frac{0.25}{e^2}+N-1}$個樣本一定滿足。

覆核流程缺失是否改善時,要抽多少樣本?

甲抽核乙108年度金額100萬元以上之傳票,共計100件,發現有不同餐飲業開立收據惟其筆跡相同者等似有商家未自行填發收據情形者,計有4件,經通知乙限期改善後,109年度金額100萬元以上之傳票計120張,如甲希望在信賴水準為95%且樣本比例與母體比例誤差在1%以內,那最少需抽核幾張傳票,以得知乙是否改善? 108年度母體違規比例為$p=\frac{4}{100}=4\%.$ 依據有限母體比例樣本數定理,為求抽核得出之樣本比例能符合要求的信賴水準及誤差,至少需要抽查$n=\frac{(Z_c)^2\frac{p(1-p)}{e^2}N}{(Z_c)^2\frac{p(1-p)}{e^2}+N-1}=\frac{(1.96)^2\frac{4\% 96\%}{(0.01)^2}120}{(1.96)^2\frac{4\% 96\%}{(0.01)^2}+120-1}\cong91.61\cong92$個樣本。 而上開抽樣違規樣本數最少會達到$x=92X4\%\cong 3.68 \cong 4$個。 又誤差在1%以內,故其違規樣本 數 誤差最多為 $x=92X(1\%)\cong0.92cong 1 $ 個。