資料分布分析
資料分布分析 次數分配表 是將原始資料依目的分組後,計算各組次數整理而成的表格, 來顯示資料分布狀況 。 分組方法通常有以下幾種: 特定屬性值分組,例如依性別分成男及女2組。 特定屬性數值區間分組,例如將測驗成績分成0~60、61~90及90~100之3組數值區間。 步驟 說明 Pandas 標記組別 將紀錄分組,組別數目不能太多及太少。可視為將紀錄新增一個有限組別欄位。離散值如值種類數適合,可省略此步驟。 例如將數值1分類為10以下組。 pd.cut 分組 將紀錄按類別分組。例如,1、3、11、23、8分成10以下組,包含1、3、8之紀錄及10以上組,包含11、23之紀錄。 df.groupby 統計 統計每組紀錄數。承上例,10以下組次數為2;10以上組次數為3。 groupby.size