โจ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ (Data Preprocessing Data) ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก Data mining ํ์ง ์๊ณ , ๋ถ์ํ๊ธฐ ์ ํฉํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ๋ ์์
โจ dplyr package ๋ฐ์ดํฐ๋ฅผ ๋นจ๋ฆฌ ๊ฐ๊ณตํ ์ ์๊ฒ ๋์์ฃผ๋ package ์ด ํจํค์ง์ ๋ด๋ถ ํจ์๋ฅผ ์์๋ณด๊ณ ์ํ๋ค. filter() : ํ ์ถ์ถ select() : ์ด(variable) ์ถ์ถ arrange() : ์ ๋ ฌ mutate() : variable ์ถ๊ฐ summarise() : ํต๊ณ์น ์ฐ์ถ group_by() : grouping, ์ง๋จ๋ณ๋ก ๋๋๊ธฐ left_join() : ๋ฐ์ดํฐ ํฉ์น๊ธฐ(์ด, variable) bind_rows() : ๋ฐ์ดํฐ ํ(record) ํฉ์น๊ธฐ bind_rows()์์๋ ๋ณ์์ ๊ฐ์์ ๋ณ์์ ์ด๋ฆ์ด ๊ฐ์์ผํ๋ค..
Programming Language/R
์ด๋ค ๋จ์ถํค๋ฅผ ์๋ชป ๋๋ฌ์ file, environment ์ฐฝ์ด ์ฌ๋ผ์ก์๋ค. ์ด๋๋ View -> Panes -> Show all Panes ํน์ Ctrl + Alt+ Shift + 0 ๋จ์ถํค๋ฅผ ์
๋ ฅํ๋ฉด ๋๋ค.
โจ ggplot์ qplot graph R์์ ggplot๋ฅผ ์ด์ฉํ๋ฉด graph๋ฅผ ๊ทธ๋ฆด ์ ์๋ค. ๋ํ ๊ทธ๋ํ๋ฅผ ๋น ๋ฅด๊ฒ ๊ทธ๋ฆฌ๊ธฐ ์ํด์๋ ggplot์์ ์ ๊ณตํ๋ qplot์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข๋ค. ์ง๋ ๊ธ์์ ์งํํ mpg data์ ๊ทธ๋ํ๋ฅผ ๋ถ๋ฌ์ค๋ ์ฝ๋๋ฅผ ์์ฑํด๋ณด๊ณ ์ ํ๋ค. library(ggplot2) mpg
โจ excel excel์ ์ฝ์ ์ ์๋ package๋ฅผ ๋ค์ด ๋ฐ์ excel ๋ด๋ถ์ ๊ฐ์ r project๋ก ๋ถ๋ฌ๋ณผ ๊ฒ์ด๋ค. install.package("readxl") # readxl package download library(readxl) # readxl package ๋ถ๋ฌ์ค๊ธฐ # xlsx ์ธ ๊ฒฝ์ฐ----------------------------------------------------------- excel_file
ํ๊ต์์ ๋ฐ์ดํฐ ๋ง์ด๋์ ๋ฐฐ์ฐ๋ฉด์, R ์ธ์ด์๋ ๋ฐฐ์ฐ๊ณ ์๋ค. ์๋กญ๊ฒ ์ธ์ด๋ฅผ ๋ฐฐ์ฐ๋ค ๋ณด๋ ์ด๋ ค์์ ๋๋ผ๊ณ ์์ด์ ๋ธ๋ก๊ทธ์ ์์ฑํ๋ฉด์ ๋ณต์ตํ๋ ์๊ฐ์ ๊ฐ์ ธ๋ณด๊ณ ์ ํ๋ค. โจ R ์ด๋ R์ ํต๊ณ ๊ณ์ฐ๊ณผ ๊ทธ๋ํฝ์ ์ํ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด์ด์ ์ํํธ์จ์ด ํ๊ฒฝ ์คํ์์ค๋ก ๋ฌด๋ฃ ๋ฐ์ดํฐ ๋ถ์๊ธฐ์ฉ์ผ๋ก, ๋ฐ์ดํฐ ์ฒ๋ฆฌ, ํต๊ณ ๋ถ์์์ ์ฌ์ฉ ๋์๋ฌธ์ ๊ตฌ๋ถ R์ ๊ทธํจํฝ ๊ธฐ๋ฅ์ผ๋ก ์ํ ๊ธฐํธ๋ฅผ ํฌํจํ ์ ์๋ ์ถํ๋ฌผ ์์ค์ ๊ทธ๋ํ๋ฅผ ์ ๊ณตํ์ฌ ๋ํ๋ฅผ ๊ทธ๋ฆฌ๋๋ฐ ์ ์ฉํ๋ค. โจ ๋ณ์ - ์ฐ์ ๋ณ์ (Continuous variable) ์ฐ์์ ์ด๋ฉฐ, ํฌ๊ธฐ๋ฅผ ๋ํ๋ธ๋ค. = Numberic variable, quantitative variable (์์ ๋ณ์) - ๋ฒ์ฃผ ๋ณ์ (Categorical variable) ๋์ ๋ถ๋ฅ (์ฌ์ฑ/๋จ์ฑ) ์ซ์ ..