Programming Language/R

โœจ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •(Data Preprocessing Data) ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ Data mining ํ•˜์ง€ ์•Š๊ณ , ๋ถ„์„ํ•˜๊ธฐ ์ ํ•ฉํ•˜๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€๊ณตํ•˜๋Š” ์ž‘์—… โœจ dplyr package ๋ฐ์ดํ„ฐ๋ฅผ ๋นจ๋ฆฌ ๊ฐ€๊ณตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์ฃผ๋Š” package ์ด ํŒจํ‚ค์ง€์˜ ๋‚ด๋ถ€ ํ•จ์ˆ˜๋ฅผ ์•Œ์•„๋ณด๊ณ ์žํ•œ๋‹ค. filter() : ํ–‰ ์ถ”์ถœ select() : ์—ด(variable) ์ถ”์ถœ arrange() : ์ •๋ ฌ mutate() : variable ์ถ”๊ฐ€ summarise() : ํ†ต๊ณ„์น˜ ์‚ฐ์ถœ group_by() : grouping, ์ง‘๋‹จ๋ณ„๋กœ ๋‚˜๋ˆ„๊ธฐ left_join() : ๋ฐ์ดํ„ฐ ํ•ฉ์น˜๊ธฐ(์—ด, variable) bind_rows() : ๋ฐ์ดํ„ฐ ํ–‰(record) ํ•ฉ์น˜๊ธฐ bind_rows()์—์„œ๋Š” ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜์™€ ๋ณ€์ˆ˜์˜ ์ด๋ฆ„์ด ๊ฐ™์•„์•ผํ•œ๋‹ค..
์–ด๋–ค ๋‹จ์ถ•ํ‚ค๋ฅผ ์ž˜๋ชป ๋ˆŒ๋Ÿฌ์„œ file, environment ์ฐฝ์ด ์‚ฌ๋ผ์กŒ์—ˆ๋‹ค. ์ด๋•Œ๋Š” View -> Panes -> Show all Panes ํ˜น์€ Ctrl + Alt+ Shift + 0 ๋‹จ์ถ•ํ‚ค๋ฅผ ์ž…๋ ฅํ•˜๋ฉด ๋œ๋‹ค.
โœจ ggplot์˜ qplot graph R์—์„œ ggplot๋ฅผ ์ด์šฉํ•˜๋ฉด graph๋ฅผ ๊ทธ๋ฆด ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ ๊ทธ๋ž˜ํ”„๋ฅผ ๋น ๋ฅด๊ฒŒ ๊ทธ๋ฆฌ๊ธฐ ์œ„ํ•ด์„œ๋Š” ggplot์—์„œ ์ œ๊ณตํ•˜๋Š” qplot์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค. ์ง€๋‚œ ๊ธ€์—์„œ ์ง„ํ–‰ํ•œ mpg data์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๋ถˆ๋Ÿฌ์˜ค๋Š” ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•ด๋ณด๊ณ ์ž ํ•œ๋‹ค. library(ggplot2) mpg
โœจ excel excel์„ ์ฝ์„ ์ˆ˜ ์žˆ๋Š” package๋ฅผ ๋‹ค์šด ๋ฐ›์•„ excel ๋‚ด๋ถ€์˜ ๊ฐ’์„ r project๋กœ ๋ถˆ๋Ÿฌ๋ณผ ๊ฒƒ์ด๋‹ค. install.package("readxl") # readxl package download library(readxl) # readxl package ๋ถˆ๋Ÿฌ์˜ค๊ธฐ # xlsx ์ธ ๊ฒฝ์šฐ----------------------------------------------------------- excel_file
ํ•™๊ต์—์„œ ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์„ ๋ฐฐ์šฐ๋ฉด์„œ, R ์–ธ์–ด์—๋„ ๋ฐฐ์šฐ๊ณ  ์žˆ๋‹ค. ์ƒˆ๋กญ๊ฒŒ ์–ธ์–ด๋ฅผ ๋ฐฐ์šฐ๋‹ค ๋ณด๋‹ˆ ์–ด๋ ค์›€์„ ๋Š๋ผ๊ณ  ์žˆ์–ด์„œ ๋ธ”๋กœ๊ทธ์— ์ž‘์„ฑํ•˜๋ฉด์„œ ๋ณต์Šตํ•˜๋Š” ์‹œ๊ฐ„์„ ๊ฐ€์ ธ๋ณด๊ณ ์ž ํ•œ๋‹ค. โœจ R ์ด๋ž€ R์€ ํ†ต๊ณ„ ๊ณ„์‚ฐ๊ณผ ๊ทธ๋ž˜ํ”ฝ์„ ์œ„ํ•œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์ด์ž ์†Œํ”„ํŠธ์›จ์–ด ํ™˜๊ฒฝ ์˜คํ”ˆ์†Œ์Šค๋กœ ๋ฌด๋ฃŒ ๋ฐ์ดํ„ฐ ๋ถ„์„œ๊ธฐ์šฉ์œผ๋กœ, ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ, ํ†ต๊ณ„ ๋ถ„์„์—์„œ ์‚ฌ์šฉ ๋Œ€์†Œ๋ฌธ์ž ๊ตฌ๋ถ„ R์€ ๊ทธํŒจํ”ฝ ๊ธฐ๋Šฅ์œผ๋กœ ์ˆ˜ํ•™ ๊ธฐํ˜ธ๋ฅผ ํฌํ•จํ•  ์ˆ˜ ์žˆ๋Š” ์ถœํŒ๋ฌผ ์ˆ˜์ค€์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ์ œ๊ณตํ•˜์—ฌ ๋„ํ‘œ๋ฅผ ๊ทธ๋ฆฌ๋Š”๋ฐ ์œ ์šฉํ•˜๋‹ค. โœจ ๋ณ€์ˆ˜ - ์—ฐ์† ๋ณ€์ˆ˜ (Continuous variable) ์—ฐ์†์ ์ด๋ฉฐ, ํฌ๊ธฐ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. = Numberic variable, quantitative variable (์–‘์  ๋ณ€์ˆ˜) - ๋ฒ”์ฃผ ๋ณ€์ˆ˜ (Categorical variable) ๋Œ€์ƒ ๋ถ„๋ฅ˜ (์—ฌ์„ฑ/๋‚จ์„ฑ) ์ˆซ์ž ..
chaerlo127
'Programming Language/R' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก