Funcția Group_by() aparține pachetului dplyr din limbajul de programare R, care grupează cadrele de date. Numai funcția Group_by() nu va da nicio ieșire. Ar trebui să fie urmată de funcția summarise() cu o acțiune adecvată de efectuat. Funcționează similar cu GROUP BY în SQL și cu tabelul pivot în Excel.
Sintaxă:
group_by(col,…)
Sintaxă:
group_by(col,..) %>% sumar(acțiune)
Setul de date în uz:
Sample_Superstore
Group_by() activat A o singură coloană
Acesta este cel mai simplu mod prin care o coloană poate fi grupată, trebuie doar să treceți numele coloanei de grupat în funcția group_by() și acțiunea care trebuie efectuată pe această coloană grupată în funcția summarise().
Exemplu: Gruparea unei singure coloane după group_by()
altfel dacă bash
R
library>(dplyr)> df =>read.csv>(>'Sample_Superstore.csv'>)> df_grp_region = df %>%>>> >summarise>(total_sales =>sum>(Sales),> >total_profits =>sum>(Profit),> >.groups =>'drop'>)> View>(df_grp_region)> |
>
>
Ieșire:
Group_by() pe mai multe coloane
Funcția Group_by() poate fi efectuată și pe două sau mai multe coloane, numele coloanelor trebuie să fie în ordinea corectă. Gruparea se va face conform numelui primei coloane din funcția group_by și apoi gruparea se va face conform celei de-a doua coloane.
Exemplu: Gruparea mai multor coloane
R
library>(dplyr)> df =>read.csv>(>'Sample_Superstore.csv'>)> df_grp_reg_cat = df %>%>>> >summarise>(total_Sales =>sum>(Sales),> >total_Profit =>sum>(Profit),> >.groups =>'drop'>)> View>(df_grp_reg_cat)> |
>
>
Ieșire:
De asemenea, putem calcula medie, numărare, minim sau maxim prin înlocuirea sumei în funcția de rezumat sau de agregare. De exemplu, vom găsi vânzări medii și profituri pentru același grup_prin exemplu de mai sus.
Exemplu:
R
Oracle sql nu este egal
library>(dplyr)> df =>read.csv>(>'Sample_Superstore.csv'>)> df_grp_reg_cat = df %>%>>> >summarise>(mean_Sales =>mean>(Sales),> >mean_Profit =>mean>(Profit),> >.groups =>'drop'>)> View>(df_grp_reg_cat)> |
>
>
Ieșire: