資料分布分析
資料分布分析
次數分配表是將原始資料依目的分組後,計算各組次數整理而成的表格,來顯示資料分布狀況。
分組方法通常有以下幾種:
- 特定屬性值分組,例如依性別分成男及女2組。
- 特定屬性數值區間分組,例如將測驗成績分成0~60、61~90及90~100之3組數值區間。
步驟 |
說明 | Pandas |
---|---|---|
標記組別 |
將紀錄分組,組別數目不能太多及太少。可視為將紀錄新增一個有限組別欄位。離散值如值種類數適合,可省略此步驟。 例如將數值1分類為10以下組。 |
pd.cut |
分組 |
將紀錄按類別分組。例如,1、3、11、23、8分成10以下組,包含1、3、8之紀錄及10以上組,包含11、23之紀錄。 | df.groupby |
統計 |
統計每組紀錄數。承上例,10以下組次數為2;10以上組次數為3。 | groupby.size |
留言