資料分布分析

資料分布分析

次數分配表是將原始資料依目的分組後,計算各組次數整理而成的表格,來顯示資料分布狀況

分組方法通常有以下幾種:

  1. 特定屬性值分組,例如依性別分成男及女2組。
  2. 特定屬性數值區間分組,例如將測驗成績分成0~60、61~90及90~100之3組數值區間。

 

步驟
說明 Pandas
標記組別
將紀錄分組,組別數目不能太多及太少。可視為將紀錄新增一個有限組別欄位。離散值如值種類數適合,可省略此步驟。
例如將數值1分類為10以下組。
pd.cut
分組
將紀錄按類別分組。例如,1、3、11、23、8分成10以下組,包含1、3、8之紀錄及10以上組,包含11、23之紀錄。 df.groupby
統計
統計每組紀錄數。承上例,10以下組次數為2;10以上組次數為3。 groupby.size

留言

這個網誌中的熱門文章

浴室水龍頭切換拉桿維修

【麵】的倉頡碼

投資現況