728x90
โจ excel
excel์ ์ฝ์ ์ ์๋ package๋ฅผ ๋ค์ด ๋ฐ์ excel ๋ด๋ถ์ ๊ฐ์ r project๋ก ๋ถ๋ฌ๋ณผ ๊ฒ์ด๋ค.
install.package("readxl") # readxl package download
library(readxl) # readxl package ๋ถ๋ฌ์ค๊ธฐ
# xlsx ์ธ ๊ฒฝ์ฐ-----------------------------------------------------------
excel_file <- read_excel("file.xlsx") # ํฐ ๋ฐ์ดํ ๋ถ๋ถ์ path ์ ์ผ๋ฉด ๋จ.
# sheet ๋ฒํธ ๋ช ๋ฒ์งธ๋ก ๋ถ๋ฌ์ฌ ๊ฒ์ธ์ง, ์ด๋ฆ์ผ๋ก ๋ถ๋ฌ์ค๊ณ ์ถ์ผ๋ฉด sheet="abc"
excel_file2 <- read_excel("file.xlsx", sheet=1)
excel_file3 <- read_excel("file.xlsx", col_names = F)
# csv ์ธ ๊ฒฝ์ฐ-----------------------------------------------------------
csv_file <- read.csv("file.csv")
- read_excel("file.xlsx", sheet=1) : sheet ์ฒซ ๋ฒ์งธ
- read_excel("file.xlsx", sheet="abc"): sheet name abc๋ก
- read_excel("file.xlsx", col_names = F): column ํ์ดํ ์์ด tuple๋ก ์์ฑ๋๋ ๊ฒ
- read.csv("file.csv")
- read.csv("file.csv", header = F) : column ํ์ดํ ์์ด tuple๋ก ์์ฑ๋๋ ๊ฒ
โจ Data Frame
ํ๊ณผ ์ด๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๋ ๊ตฌ์กฐ
์ด: ์์ฑ, ํ: tuple
korean <- c(100, 99, 89)
math <- c(80, 90, 99)
score <- data.frame(korean, math)
# ํ์ค๋ก ์์ฑํ๊ธฐ
score <- data.frame(korean <- c(100, 99, 89),
math <- c(80, 90, 99))
โจ ggplot2
ggplot2 package ์ ๋ด์ฅ๋์ด ์๋ ์ํ ๋ฐ์ดํฐ mpg๋ก data frame์ ์ฐ์ตํด๋ณด๊ณ ์ ํ๋ค.
install.packages("ggplot2")
library(ggplot2)
# ggplot2์ mpg sample data๋ฅผ data frame์ผ๋ก ๋ณต์ฌํ๋ค.
mpg <- as.data.frame(ggplot2::mpg)
# data frame ๋ด๋ถ ์ ๋ณด ํ์ธํ๋ ํจ์----------------------------------------
View(mpg) # ํ
head(mpg) # ์์์ 6๊ฐ
head(mpg, 10) # ์์์ 10๊ฐ
tail(mpg) # ๋ค์์ 6๊ฐ
tail(mpg, 10) # ๋ค์์ 10๊ฐ
dim(mpg) # ํ, ์ด
str(mpg) # ๋ฐ์ดํฐ ๊ตฌ์กฐ, ๋ณ์ ๊ฐ์, ๋ณ์ ๋ช
, ๊ด์ฐฐ์น ๊ฐ์, ๊ด์ฐฐ์น
summary(mpg) # ๊ธฐ์ ํต๊ณ, mean, midean, min, max etc. ๊ฐ ๋ํ๋
class(mpg) # data type
#-------------------------------------------------------------------------
mean(mpg$year) # ํ๊ท
median(mpg$year) # ์ค์๊ฐ
#-------------------------------------------------------------------------
mpg$drv <- as.factor(mpg$drv) # factor, categorical variable๋ก ๋ณ๊ฒฝ
levels(mpg$drv) # factor์ด๋ฏ๋ก levels ์ฌ์ฉ ๊ฐ๋ฅ
- View(mpg) # ํ
- head(mpg) # ์์์ 6๊ฐ
- head(mpg, 10) # ์์์ 10๊ฐ
- tail(mpg) # ๋ค์์ 6๊ฐ
- tail(mpg, 10) # ๋ค์์ 10๊ฐ
- dim(mpg) # ํ, ์ด
- str(mpg) # ๋ฐ์ดํฐ ๊ตฌ์กฐ, ๋ณ์ ๊ฐ์, ๋ณ์ ๋ช , ๊ด์ฐฐ์น ๊ฐ์, ๊ด์ฐฐ์น
- summary(mpg) # ๊ธฐ์ ํต๊ณ, mean, midean, min, max etc. ๊ฐ ๋ํ๋
- class(mpg) # data type
โจ Data Frame ๋ด๋ถ ๋ณ์ ์ง์นญ ๋ช ๋ น์ด
frame ๋ด๋ถ์ ๋ณ์๋ฅผ ์ง์นญํ๋ ๋ช ๋ น์ด๋ $๋ก ๋ํ๋ธ๋ค
mpg$drv
โจ rm
๋ณ์๋ฅผ ์์ฑํ๋๋ฐ, ๋ง์์ ๋ค์ง ์์์ ๋ฐ์ดํฐ๋ฅผ ์ง์ฐ๊ณ ์ถ๋ค๋ฉด?
rm์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ง์ธ ์ ์๋ค.
rm(mpg)
rm(a)
rm(list=ls()) # ๋ชจ๋ ๋ฐ์ดํฐ ์ญ์
728x90
'Programming Language > R' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(Data Preprocessing data) (0) | 2022.04.25 |
---|---|
R studio] ํ๊ฒฝ, ํ์ผ ์ฐฝ์ด ์ฌ๋ผ์ก์ ๋ (0) | 2022.04.25 |
R ๊ธฐ์ด ๋ช ๋ น์ด(qplot graph, ๋น๋ ํ, dplyr rename, ํ์ ๋ณ์, ifelse) (0) | 2022.04.08 |
R ๊ธฐ์ด ๋ช ๋ น์ด(c(), factor(), class(), levels(), as.numeric(), is.numeric()) (0) | 2022.04.07 |