Cvičenie 2 - Funkcie pre cyklické spracovanie, načítanie dát a práca s knižnicou dplyr

Cieľom druhého cvičenia je osvojiť si použitie funkcií pre cyklické spracovanie, nacítať dáta z rôznych súborov a predspracovať ich pomocou knižnice dplyr.

Funkcie pre cyklické spracovanie

  1. apply()
  2. Funkcia apply() sa používa na evaluáciu funkcie v rámci ohraničení poľa. To znamená, že si vyberiem pole (často sú to riadky alebo stĺpce matice), na ktoré aplikujem zvolenú funkciu. Prvý uvedený príklad aplikuje funkciu sum na stpĺce a následne na riadky matice M. Spusti skript a sleduj čo sa udeje v druhom príklade.

  3. lapply(), sapply()
  4. Funkcia lapply() sa používa pri zoznamoch (list), pričom výsledok je opäť zoznam (list). Ak máme na vstupe iný dátový typ, môžeme ho jednoducho zmeniť prílazom as.list(). Funkcia sapply() sa snaží zjednodušiť výsledok lapply(). Výsledkom sapply() je:

    • vektor (ak elementy majú dĺžku 1),
    • matica (ak elementy majú ROVNAKÚ dĺžku, väčšiu ako 1),
    • nak vráti zoznam (list) ako funkcia lapply().

  5. mapply()
  6. Na základe nasledujúcich príkladov popíšte funkciu mapply():

  7. tapply(), split()
  8. Funkcia tapply() vypočíta zadanú funkciu pre každú faktorovú premennú vo vektore. Je to veľmi užitočná funkcia, ktorá vám umožňuje vytvoriť podmnožinu vektora a potom aplikovať niektoré funkcie na každú z podmnožín. Vstupom je vektor a dátovy typ ktorý je alebo môže byť prevedený na faktor. Funkcia split() rozdelí vstup do skupín podľa faktorov.

Získavanie a načítavanie dát:

  1. Stiahnutie súborov z webu
  2. Vo vašom pracovnom priečinku si vytvorte prieňčinok DATA. nastavte cestu do tohto priečinka a na základe nasledujúceho skriptu stiahnite dáta, ktoré pomenujeme iris.csv:

    Pokračujte stiahnutím dát z úlohy 2.1.

  3. Načítanie lokálnych textových súborov
  4. Textové súbory načítavame pomocou read.table(). Pre .csv súbory existuje špeciálny typ funkcie read.table() a to read.csv() a read.csv2(), pričom:

    • read.csv() ma default separátor , a desatinnú čiarku .
    • read.csv2() ma default separátor ; a desatinnú čiarku ,
    Spusti nasledujúci skript a popíš funkcie head() a tail().

    Pokračujte načítaním dát z úlohy 2.2.

  5. JSON súborov
  6. JSON = JavaScript Object Notation, ukladanie a zdieľaie dát v štruktúrovanej formw key:value.

    Otvorte v prehliadači tento JSON súbor a oboznámte sa s jeho štruktúrou.

    Následne načítajte tento JSON súbor do R a vykonajte nasludujúce príkazy: Pokračujte úlohou 2.3.

Úlohy

Úloha 2.1

Stihanite si dáta zo web stránky http://people.tuke.sk/viera.maslej.kresnakova/JDA/camera.csv, uložte ich do priečinku DATA a pomenujte ich camera.csv

Úloha 2.2

Načítajte dáta camera ako tabuľku, csv alebo csv2 a vypíšte prvých 5 riadkov.

Úloha 2.3

Načítajte dáta z https://api.github.com/users/jtleek/repos, vypíšte zo stĺpca OWNER všetky LOGIN.


© 2020 Peter Butka, Viera Maslej Krešňáková