Cvičenie 4 - Vizualizácia dát, práca s knižnicou ggplot2

Cieľom štvrtého cvičenia je naučiť sa základné možnosti vizuálizácia dát a používať knižnicou ggplot2, ktorá poskytuje platformu na vytváranie jednoduchých grafov poskytujúcixh množstvo informácií.

Na začiatok si ukážeme základné možnosti vizualízácie dát.

Prieskum dát

Po načítaní údajov do pracovného priestoru je čas ich preskúmať a získať predstavu o ich štruktúre:

Základné grafy

Graphics je vstavaným balíkom R a využíva sa na vykresľovanie base grafov. Zoznam všetkých funkcií získate zadaním:

library(help = "graphics")

Pozrime sa na použitie základných grafov:

Knižnica ggplot2

Balík ggplot2 je róbustný a všestraný balík, ktorý vyvinul Hadley Wickham na vytváranie estetických grafov a máp. V tejto časti sa pozrieme na niekoľko príkladov a tipov ako používať balík ggplot2 na vizualizáciu dát.

Ggplot2 vytvára akúsi "gramatiku", pomocou ktorej vieme zápis rozdeliť do troch základných častí:

plot = data + aesthetics + geometry 

K tejto základnej gramatike môžeme pridávať, ďalšie prvky ako popis osí, nadpis grafu, legendu, zmenu témy a mnoho iného. V nasledujúucich úlohach si ukážeme niektoré z nich.

plot = ggplot(data, aes()) + geometry + ... 

Pre inštaláciu balíka zadajte

install.packages("ggplot2") 

a načítajte knižnicu pomocou nasledujúceho príkazu:

library(ggplot2) 

V nasledujúcich úlohách budeme používať 2 datasety dostupné v R:

  1. iris: 50 pozorovaní, 5 premenných
  2. ---->

  3. Titanic: 32 pozorovaní, 5 premenných
  4. <----

Histogram

Barplot

Boxplot

Scatterplot

Úlohy

Úloha 4.1

Vytvorte boxplot pomocou systému vykresľovania Base. Použite dáta z datasetu s názvom CO2. Uložte dáta CO2 do premennej s názvom CO2. Boxplot bude znázorňovať závislosť premennej uptake ku premennej Type. Nastavte farbu boxplotu na zelenú a pridajte taktiež nadpis grafu a popis osí x a y. Na záver pridajte do grafu horizontálnu hrubú čiaru s veľkosťou 4 na hodnote 25, ktorá bude prerušovaná a červená.

Úloha 4.2

Vytvorte bodobý graf pomocou knižnice ggplot2. Použite dáta z datasetu s názvom mtcars. Bodový graf bude znázorňovať závislosť počtu najazdených kilometrov (mpg) ku objemu motora (disp) pre autá s manuálnou prevodovkou - (podmnožinu am==0). Farbu bodov zvolťe podľa počtu valcov (cyl). Pridajte nadpis Scatter plot, os x premenujte naMileage, os y na Displacement. Nastavte tému na minimálnu.