목록PYTHON (60)
도찐개찐
다중 그래프 그리기 subplot(행, 열, 번호) import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns x = [1,2,3,4] y = [2,3,5,10] 수평 다중 그래프 plt.subplot(1, 2, 1) # 1행 2열 영역중 1행 1열 영역 plt.plot(x, y, 'r') plt.subplot(1, 2, 2) # 1행 2열 영역중 1행 2열 영역 plt.plot(x, y, 'b--') plt.tight_layout() 수직 다중 그래프 plt.subplot(2, 1, 1) # 2행 1열 영역중 1행 1열 영역 plt.plot(x, y, 'r--') plt.subplot(2, 1, ..
교차표 범주형 데이터 분석시 사용하는 분석도구 crosstab(인덱스, 컬럼, 행이름, 컬럼이름, 총합여부, 정규화여부) import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns data = pd.DataFrame({'id': ['id1', 'id1', 'id1', 'id2', 'id2', 'id3'], 'col1': ['a', 'a', 'a', 'b', 'b', 'b'], 'col2': ['d', 'd', 'd', 'c', 'c', 'd']}) print(data.id) 0 id1 1 id1 2 id1 3 id2 4 id2 5 id3 Name: id, dtype: object # 교차표 생성 1..
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns 박스플롯 box-and-whisker plot (상자수염 그래프) 데이터의 대략적인 분포와 개별적인 이상치들을 동시에 보여줄 수 있으며 서로 다른 데이터 뭉치를 쉽게 비교할 수 있도록 도와주는 시각화 기법 통계학자 존 튜키(John Tukey)가 1977년 저서 "탐색적 데이터 분석(Exploratory Data Analysis)"에서 처음 제시 범위 막대에서는 수염의 양 끝이 최대값과 최소값을 나타내고, 상자는 사분위수범위를 나타내며, 상자 안에 중앙값을 표현하는 방식으로 "5가지 요약 수치" 를 표현 boxplot(값, 옵션) kings..
import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sns 산점도 scatter graph n개의 짝으로 이루어진 자료(컬럼이 2개 이상)를 x, y 평면에 점으로 나타낸 그래프 자료의 분포정도를 파악하는데 사용 주로 상관/회귀분석에 사용 scatter(x축, y축, 옵션) # 약물 투여에 따른 환자 반응 age = [23, 30, 40, 45, 60] drugA = [16, 20, 27, 40, 60] drugB = [15, 18, 25, 31, 40] plt.scatter(age, drugA, color='b') plt.show() 회귀계수를 이용한 ..
선그래프 시간의 따른 데이터의 변화를 시각화하는데 유용하게 사용 지난 10년 간 경유 가격의 평균값 지난 두 달간 몸무게 변화 시계열 데이터를 시각화하는데 주로 사용 plot(x, y, 옵션) import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sns 항공기 이용승객 데이터 airs = pd.read_csv('../data/airpassengers.csv') plt.figure(figsize=(25,8)) plt.plot(airs.Month[:60], airs.Passengers[:60]) plt.xticks(rotation=90, fontsize=15)..
conda create -n ipywidgets_problem jupyterlab ipywidgets -y# 명목형 데이터 시각화 빈도에 따른 막대그래프 빈도비율에 따른 원그래프 빈도는 value_counts 또는 crosstab를 이용 import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sns # fontpath = '/usr/share/fonts/NanumGothic.ttf' fontpath = '/home/bigdata/py39/lib/python3.9/site-packages/matplotlib/mpl-data/fonts/ttf/NanumGothi..
!conda install -y matplotlib Collecting package metadata (current_repodata.json): done Solving environment: done ## Package Plan ## environment location: /opt/miniconda3 added / updated specs: - matplotlib The following packages will be downloaded: package | build ---------------------------|----------------- brotli-1.0.9 | h5eee18b_7 18 KB brotli-bin-1.0.9 | h5eee18b_7 19 KB cycler-0.11.0 | pyh..
import numpy as np import pandas as pd import scipy.stats as sp 변동성 이해하기 값들이 서로 얼마나 다른지 여부 파악 nums1 = [7,6,3,3,1] nums2 = [3,4,4,5,4] nums3 = [4,4,4,4,4] print(np.mean(nums1) ,np.mean(nums2) ,np.mean(nums3)) nums_df = pd.DataFrame({'a':nums1, 'b':nums2, 'c': nums3}) nums_df.mean() 4.0 4.0 4.0 a 4.0 b 4.0 c 4.0 dtype: float64 분산경향 기술통계의 또 다른 관점 - 분산, 산포 데이터가 어떻게 분포되어 있는지 설명하는 통계치 자료의 흩어지거나 밀집되는 정..