본문 바로가기
반응형

파이썬18

다항 회귀(Polynomial Regression) 분석 이번 시간에는 다항 회귀(Polynomial Regression) 분석에 대해 알아보겠습니다.종속 변수와 독립 변수의 관계를 2차 이상의 다항식으로 분석해야 할 때 사용할 수 있습니다. 데이터 불러오기먼저 분석에 사용할 데이터를 불러옵니다.깃허브에서 제공하는 시리얼 영양소 평가 데이터를 사용해 보겠습니다.import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeatures, StandardScalerfrom sklearn.linear_model import LinearRegressionfrom skl.. 2025. 5. 5.
분류분석을 통한 머신러닝 이해 이번 시간에는 분류분석을 통해, 머신러닝 과정을 이해해 보겠습니다.데이터는 sklearn의 iris 데이터를 활용하겠습니다.iris의 종류를 종속변수로 하고, 나머지 변수들을 독립변수로 하여 모델을 만들고 검증해 보겠습니다. 데이터 불러오기 및 결측치 확인sklearn으로부터 iris 데이터를 불러오고, 각 변수에 결측치가 있는지 확인합니다.df.isna().sum() 명령어로 확인 시, 결측치가 없음을 알 수 있습니다.from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_split, cross_val_scorefrom sklearn.tree import DecisionTreeClassifierfrom sk.. 2025. 5. 1.
회귀분석을 통한 머신러닝 이해 이번 시간에는 회귀분석을 통해 머신러닝에 대해 이해해 보도록 하겠습니다.회귀분석에 사용할 데이터는, sklearn 패키지의 보스턴 주택 가격 데이터입니다.보스턴 주택 가격을 종속 변수, 나머지 변수들을 독립변수로 하여 모델을 만들고 검증하는 과정을 통해, 머신러닝을 이해할 수 있습니다. 데이터 불러오기 및 이상 여부 체크먼저 데이터를 불러온 뒤, 이상 여부를 체크합니다.df.info()를 통해 확인해 보면, CHAS와 RAD가 category형 변수임을 알 수 있습니다.회귀 분석을 위해, RAD는 int형 변수로 변경해 줍니다.CHAS는 0 혹은 1 값만을 가져 분석에 거의 영향이 없으므로, 향후 분석에서 제외해 줍니다.from sklearn import datasetsfrom sklearn.model_.. 2025. 4. 26.
주성분 분석 (PCA: Principal Component Analysis) 데이터 분석을 효과적으로 하기 위해서는, 데이터에 실질적으로 영향을 주는 변수들로 변수 개수를 최소화하는 것이 좋습니다.이번 시간에는, 주성분 분석 방법을 사용하여 변수 개수를 최소화해 보겠습니다. 데이터 불러오기 및 전처리먼저 iris 데이터를 불러와서, 분석하고자 하는 데이터를 만들어 줍니다.import pandas as pdfrom sklearn.datasets import load_irisfrom sklearn.preprocessing import StandardScalerfrom sklearn.decomposition import PCAimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as np# Load iris datairis.. 2025. 4. 13.
ProfileReport : 데이터 분석을 빠르게 이번 시간에는, 평균/최대/최솟값과 같은 기본적인 통계부터, 변수 간의 상관관계 등의 분석까지 손쉽게 할 수 있는 방법을 알아보겠습니다. 데이터 불러오기 및 전처리sklearn 패키지에서 기본으로 제공하는 iris 데이터를 사용해 분석해 보겠습니다.먼저, iris 데이터를 불러옵니다.import pandas as pdfrom sklearn.datasets import load_irisfrom pandas_profiling import ProfileReport# Load iris datairis = load_iris() iris 데이터의 Column 이름은 feature_names 안의 값으로 기입합니다 (sepal length, sepal width, petal length, petal width).그 .. 2025. 4. 12.
두 집단의 평균 차이를 통계적으로 판단 이번 글에서는, 두 집단의 평균이 통계적으로 차이가 있는지 판단하는 방법을 알아보겠습니다. 데이터 불러오기먼저, github에서 mpg.csv 데이터를 다운로드합니다.빨간색 화살표의 아이콘을 클릭하면 됩니다. (Source : Doit_Python/Data/mpg.csv at main · youngwoos/Doit_Python · GitHub) 다운로드한 데이터 중, 소형차(compact)와 스포츠 실용차(suv)의 연비를 두 집단으로 하여 비교해 보겠습니다.두 집단의 평균은 각각 20.1/13.5이고, Box plot 상으로는 일단 평균의 차이가 있는 것처럼 보입니다.import pandas as pdfrom scipy.stats import chi2_contingencyfrom scipy import.. 2025. 4. 6.
반응형