잡덕의 코딩

전체 글

[ML] 군집 분석 - 2 2025.08.17 5
[ML] 군집 분석 - 1 2025.07.13
[시각화] 파이썬 시각화 활용 - Box plot 2025.05.06
[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정) 2025.03.20 1
[시각화] 파이썬 시각화 활용 - Line plot 2025.03.13
[RL] gymnasium cart pole 강화 학습 - DDQN 2025.03.06
[RL] gymnasium cart pole 강화 학습 - DQN 2025.02.28
[RL] gymnasium cart pole 강화 학습 - 1 2025.02.18
[RL] gymnasium frozen lake 강화 학습 - SARSA 2025.02.11 1
[RL] gymnasium frozen lake 강화 학습 - 2 2025.02.03 2

[ML] 군집 분석 - 2

Japduck_Coding 2025. 8. 17. 12:05

2025. 8. 17. 12:05

728x90

SMALL

안녕하세요! 오늘은 기존에 작성했던 군집 분석을 이어서 포스팅 하겠습니다.

군집 분석

군집 분석은 정답(라벨)이 없는 데이터를 비슷한 특성끼리 그룹으로 나누는 비지도 학습 방법입니다.
고객을 세분화하거나, 이상치를 탐지할 때 유용하게 쓰이는 분석 방법입니다!

군집 분석은 크게 아래 4가지 과정을 거쳐 진행되는데요.

피처 선정
차원 축소
알고리즘 적용
알고리즘 평가

오늘은 알고리즘 적용과 알고리즘 평가에 대해서 설명 드리겠습니다:)

피처 선정과 차원 축소에 대한 설명은 아래 포스팅에서 진행하고 있으니, 먼저 확인해주세요!

https://yhj9855.com/entry/ML-%EA%B5%B0%EC%A7%91-%EB%B6%84%EC%84%9D-1

[ML] 군집 분석 - 1

안녕하세요! 오늘은 머신 러닝의 비지도 학습 내 대표 알고리즘, 군집 분석에 대해 포스팅 하겠습니다.군집 분석군집 분석은 정답(라벨)이 없는 데이터를 비슷한 특성끼리 그룹으로 나누는 비지

yhj9855.com

알고리즘 적용

군집 분석은 아래의 총 4가지 알고리즘을 가장 많이 사용합니다!

KMeans
Mean Shift
GMM
DBSCAN

KMeans

가장 대표적인 군집화 방법입니다!

미리 군집 수(K)를 정해두고, 각 데이터를 가장 가까운 중심점으로 할당합니다.

빠르고 간단하지만, 군집 수를 미리 사전에 알아야 하는데요.

이 때, 적절한 군집 수를 판단하는 방법이 바로 엘보우 방법입니다.

엘보우 방법

KMeans에서 군집 수를 정할 때, 적절한 K를 찾기 위한 시각적 기법입니다!

엘보우 원리는 아래와 같습니다.

K를 1부터 시작해서 점차 늘려가며 KMeans 실행
각 K의 군집 내 거리의 합을 계산
K가 커질수록 합이 작아지지만, 어느 순간 완만하게 떨어지는 지점이 나타남
그 지점을 엘보우라고 부르며, K값이 적절한 군집이라고 판단

엘보우 방법의 코드는 아래와 같습니다.

# kmeans 군집을 결정하기 위한 엘보우 방법
a = []
for k in range(2, 7) :
    kmeans = KMeans(n_clusters=k,init='k-means++', max_iter=300, random_state=42)
    # df_scaled는 정제된 데이터
    kmeans.fit_predict(df_scaled)
    a.append(kmeans.inertia_)
plt.plot(range(2,7), a)
plt.show()

코드를 실행해서, 위와 같은 결과물을 얻을 수 있었는데요!

3인 구간에서 완만하게 꺾이기 때문에, 제가 가진 데이터의 적절한 군집은 3이라는 것을 알 수 있습니다.

엘보우 방법으로 적절한 K를 구했다면, KMeans를 바로 실행할 수 있습니다.

KMeans를 실행하는 코드는 아래와 같습니다.

# 엘보우를 통해서 3개의 군집 적용
kmeans = KMeans(n_clusters=3,init='k-means++', max_iter=300, random_state=42
# df_tsne는 차원 축소까지 끝난 데이터
k_clusters = kmeans.fit_predict(df_tsne)

# 군집 시각화
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_tsne[:, 0], y=df_tsne[:, 1], hue=k_clusters, palette='viridis', s=100)
plt.show()

KMeans 알고리즘을 통해 군집이 잘 분류된 것을 보실 수 있습니다:)

728x90

Mean Shift

군집을 자동으로 결정해주는 알고리즘으로, 데이터가 밀집된 방향으로 중심을 이동시키며 군집을 형성합니다.

군집을 미리 알 필요는 없지만, 계산량이 많고 고차원 데이터는 부적합한 경향이 있습니다!

요즘은 차원 축소도 많이 하고, 컴퓨터가 좋아서 계산량이 많아 느리다는 체감은 잘 못했어요.

Mean Shift를 실행하는 코드는 아래와 같습니다.

mean_shift = MeanShift()
mean_clusters = mean_shift.fit_predict(df_tsne)

# 군집 시각화
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_tsne[:, 0], y=df_tsne[:, 1], hue=mean_clusters, palette='viridis', s=100)
plt.title('MeanShift Clustering with t-SNE')
plt.show()

Mean Shift 알고리즘을 통해 군집이 잘 분류된 것을 보실 수 있습니다:)

GMM

Gaussian Mixture Model의 줄임말로, 군집을 확률적으로 나누는 방법입니다!

각 데이터가 군집에 속할 확률을 기반으로 군집 분류하기 때문에 비대칭이나 겹치는 군집도 처리가 가능합니다.

하지만, 복잡도가 높고 잘못된 초기값에 민감한 단점이 있습니다.

GMM도 군집 설정을 해줘야 하기 때문에 엘보우 방법으로 찾은 군집을 같이 적용하는 것이 좋습니다.

GMM를 실행하는 코드는 아래와 같습니다.

gmm = GaussianMixture(n_components=3)
gmm.fit(df_tsne)
gmm_clusters = gmm.predict(df_tsne)

# 군집 시각화
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_tsne[:, 0], y=df_tsne[:, 1], hue=gmm_clusters, palette='viridis', s=100)
plt.title('GMM Clustering with t-SNE')
plt.show()

GMM 알고리즘을 통해 군집이 잘 분류된 것을 보실 수 있습니다:)

DBSCAN

밀도가 높은 지역을 하나의 군집으로 간주하여, 이웃 점의 수가 일정 기준 이상이면 같은 군집으로 묶는 방법입니다!

이상치 탐지에 강하고, 모양이 복잡한 군집을 잘 나누는 편이라 복잡한 데이터에 잘 어울리는 알고리즘이에요.

다만, 하이퍼파라미터에 민감하고, 밀도 차이가 크거나 단순한 데이터에는 오히려 부적합할 수 있습니다.

DBSCAN를 실행하는 코드는 아래와 같습니다.

dbscan = DBSCAN(eps=3, min_samples=2)
dbscan_clusters = dbscan.fit_predict(df_tsne)

# 군집 시각화
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_tsne[:, 0], y=df_tsne[:, 1], hue=dbscan_clusters, palette='viridis', s=100)
plt.title('DBSCAN Clustering with t-SNE')
plt.show()

DBSCAN 알고리즘을 통해 군집이 잘 분류된 것을 보실 수 있습니다:)

다만 같은 데이터로도, DBSCAN은 너무 세부적으로 분류하여 군집이 많이 생성된 것을 보실 수 있습니다!

SMALL

알고리즘 평가

알고리즘을 적용했으면, 어떤 알고리즘이 잘 적용이 된 것인지 확인할 필요가 있습니다.

이 때 사용하는 것이 바로 실루엣 점수입니다.

실루엣 점수

실루엣 점수는 각 데이터가 자기 군집 안에서는 얼마나 가까이 있고, 다른 군집과는 얼마나 멀리 떨어져 있는지를 수치로 나타낸 지표입니다.

값의 범위는 -1에서 1사이로, 1에 가까울수록 군집이 잘 분리된 것인데요.

일반적으로는 0.5를 넘으면 군집이 잘 만들어진 것이고, 0.25미만이면 잘 안된 것이라고 판단합니다.

실루엣 점수를 확인하는 코드는 아래와 같습니다.

# k_clusters는 KMeans 군집 분석 결과
silhouette_avg = silhouette_score(df_tsne, k_clusters)

# mean_clusters는 Mean Shift 군집 분석 결과
silhouette_avg = silhouette_score(df_tsne, mean_clusters)

# gmm_clusters는 GMM 군집 분석 결과
silhouette_avg = silhouette_score(df_tsne, gmm_clusters)

# dbscan_clusters는 DBSCAN 군집 분석 결과
silhouette_avg = silhouette_score(df_tsne, dbscan_clusters)

저는 실루엣 점수를 확인해보니, KMeans, Mean Shift, GMM 모두 동일하게 0.76이 나왔고, DBSCAN만 0.47이 나왔습니다.

군집이 많이 분류되는 것이 꼭 좋은 모델은 아니라는 점!

여기까지 군집 분석에 관한 내용이었습니다:D

궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > ML(머신 러닝)' 카테고리의 다른 글

[ML] 군집 분석 - 1 (0)	2025.07.13

[ML] 군집 분석 - 1

Japduck_Coding 2025. 7. 13. 11:30

2025. 7. 13. 11:30

728x90

SMALL

안녕하세요! 오늘은 머신 러닝의 비지도 학습 내 대표 알고리즘, 군집 분석에 대해 포스팅 하겠습니다.

군집 분석

군집 분석은 정답(라벨)이 없는 데이터를 비슷한 특성끼리 그룹으로 나누는 비지도 학습 방법입니다.

고객을 세분화하거나, 이상치를 탐지할 때 유용하게 쓰이는 분석 방법입니다!

군집 분석은 크게 아래 4가지 과정을 거쳐 진행되는데요.

피처 선정
차원 축소
알고리즘 적용
알고리즘 평가

오늘은 피처 선정과 차원 축소에 대해서 설명 드리겠습니다:)

알고리즘 적용과 평가에 대해 궁금하신 분들은 아래 링크를 확인해주세요!

https://yhj9855.com/entry/ML-%EA%B5%B0%EC%A7%91-%EB%B6%84%EC%84%9D-2

[ML] 군집 분석 - 2

안녕하세요! 오늘은 기존에 작성했던 군집 분석을 이어서 포스팅 하겠습니다.군집 분석군집 분석은 정답(라벨)이 없는 데이터를 비슷한 특성끼리 그룹으로 나누는 비지도 학습 방법입니다.고객

yhj9855.com

피처 선정

비슷한 특성을 그룹으로 나누기 때문에 그룹으로 나누고자 하는 좋은 특정을 골라주는 작업이 정말 중요한데요!

이 과정을 피처(Feature) 선정이라고 합니다.

피처는 각 데이터를 설명해주는 변수들로, 고객 데이터에서 나이, 연봉, 방문 횟수 같은 것을 의미합니다.

불필요한 피처는 군집을 흐리게 만들거나, 의도하지 않은 방향으로 군집을 만들기도 합니다.

또한, 중복된 피처 정보는 모델에 부담을 주기도 하기 때문에 불필요한 피처를 버리는 과정이 정말 중요해요!

피처 선정 기준

피처를 선정할 때는 보통 아래 3가지 방법을 사용합니다.

분산 기반 (Variance)
상관 계수 기반 (Correlation)
정보 이득 기반 (Information Gain)

분산 기반 (Variance)

분산은 피처가 얼마나 많은 변동성을 가지는지를 나타내기 때문에, 변동성이 거의 없는 피처는 군집에 영향이 없다고 볼 수 있어요!

분산이 거의 없는 피처를 제거함으로써 모델에 부담을 줄이고, 조금 더 명확한 군집을 생성할 수 있도록 할 수 있습니다.

일반적으로는 0.01 이하 피처는 거의 변동이 없다고 생각할 수 있습니다.

전체 피처 중 하위 5% 또는 10%에 해당하는 분산을 가진 피처를 제거하는 방법도 있기 때문에, 분산 조절은 상황에 맞게 하시면 됩니다:)

0.01 이하의 분산을 제거하는 코드는 아래와 같습니다.

# VarianceThreshold 적용
selector = VarianceThreshold(threshold=0.01)
# features: 피처가 들어있는 데이터 프레임
selector.fit(features)

# 선택된 피처의 인덱스와 이름 추출
selected_features = features.columns[selector.get_support()]

# 제거된 피처 확인
#removed_features = data.columns[~selector.get_support()]

reduced_data = pd.DataFrame(selector.transform(features), columns=selected_features)

728x90

상관 계수 기반 (Correlation)

상관 계수는 서로 얼마나 유사한지를 나타내기 때문에, 상관 계수가 높은 피처들은 서로 중복된 정보라고 볼 수 있어요!

상관 계수가 높은 피처 중 하나를 제거하여 중복성을 줄이고, 모델에 부담을 줄일 수 있습니다.

상관 계수를 계산하고, 제거하는 코드는 아래와 같습니다.

저는 csv 파일로 만들어서 제거하는게, 더 빨라서 그렇게 했어요ㅎㅎ

# 상관 행렬 계산
corr_matrix = reduced_data.corr().abs()

# 상관 계수가 높은 피처 중복 제거
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))

# csv 파일을 통해 확인하고 직접 제거
upper.to_csv('상관 계수.csv')

정보 이득 기반 (Information Gain)

정보 이득은 서로 상호 의존성을 측정하는 방법으로, 값이 높을수록 해당 피처가 다른 피처들과 유의미한 상호작용을 갖는다는 것을 의미합니다.

유의미하지 못한 피처들을 제거하여 조금 더 명확한 군집을 생성할 수 있어요!

일반적으로 0.3 이상의 값을 가져야, 중요도가 높다고 해석할 수 있습니다.

0.1 미만의 값은 거의 기여하지 않는다고 볼 수 있고, 그 사이 값들은 중요도가 낮다고 볼 수 있어요.

어느 점수에서 피처를 제거할지는 상황에 맞게 하시면 됩니다:)

kmeans 알고리즘 적용 후, 정보 이득 점수에 따라 피처를 제거하는 코드는 아래와 같습니다!

kmeans 알고리즘 외 다른 군집 분석 알고리즘을 사용하셔도 좋습니다ദ്ദിㆁᴗㆁ✿)

# KMeans를 위한 데이터 정제
#  데이터 정규화 또는 표준화
scaler = StandardScaler()
df_scaled = scaler.fit_transform(data)

# KMeans 적용
kmeans = KMeans(n_clusters=3,init='k-means++', max_iter=300, random_state=42)
clusters = kmeans.fit_predict(df_scaled)

# 피처 이름과 중요도를 함께 저장
feature_importance_df = pd.DataFrame({
    'Feature': data.columns,
    'Importance': mi_scores
})

# 중요도에 따라 정렬
# 해당 값을 직접 확인해서 컬럼 제거
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)

SMALL

차원 축소

데이터에서 차원은 피처의 개수를 의미하는데, 차원이 높을수록 여러 가지 문제가 발생합니다ㅠㅠ

대표적으로는 계산량이 증가되고, 알고리즘 성능이 떨어지며, 시각화가 어렵다는 문제가 있는데요!

이를 방지하기 하기 위해 원래 데이터의 주요 정보를 최대한 보존하면서 변수(차원)의 수를 줄이는 방법을 차원 축소하고 합니다.

차원 축소의 대표적인 알고리즘은 PCA와 t-SNE가 있는데, 요즘은 t-SNE를 더 자주 사용한다고 하네요:)

차원 축소를 할 때는 어떤 차원으로 축소 가능하지만, 보통 시각화를 위해서 2차원이나 3차원으로 축소를 합니다!

그리고 차원 축소가 불필요한 중복을 추가로 제거해주기 때문에, 알고리즘 적용 전에 하시는게 더 좋습니다.

t-SNE 알고리즘으로 2차원 축소하는 코드는 아래와 같습니다.

코드 자체는 정말 단순하네요ㅋㅋㅋㅋ

# TSNE를 활용하여 차원 축소 진행
tsne = TSNE(n_components=2, random_state=42, perplexity=30)
df_tsne = tsne.fit_transform(df_scaled)

차원 축소를 하시고, 알고리즘을 적용하면 아래 처럼 수월하게 시각화를 진행할 수 있어요:D

여기까지가 군집 분석을 위한 피처 선정과 차원 축소에 관련된 내용이었습니다.

군집 분석은 불필요한 정보를 많이 포함할 수록 기능이 상당히 떨어지기 때문에 전처리하는 과정이 정말 중요합니다ㅠㅠ

저도 군집 분석하면서 전처리하는게 가장 힘들었어요...ㅎㅎ

KMeans, GMM 같은 군집 알고리즘 비교와 알고리즘을 평가하는 방법은 아래 링크를 확인해주세요!

https://yhj9855.com/entry/ML-%EA%B5%B0%EC%A7%91-%EB%B6%84%EC%84%9D-2

[ML] 군집 분석 - 2

yhj9855.com

궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > ML(머신 러닝)' 카테고리의 다른 글

[ML] 군집 분석 - 2 (5)	2025.08.17

[시각화] 파이썬 시각화 활용 - Box plot

Japduck_Coding 2025. 5. 6. 12:14

2025. 5. 6. 12:14

728x90

SMALL

728x90

안녕하세요! 오늘은 파이썬으로 하는 시각화 활용 Box plot에 대해 포스팅 하려고 합니다.

Box plot 이란?

데이터의 분포, 중앙값, 사분위수, 이상치를 시각적으로 표현하는 그래프 입니다.

Box plot은 분포와 대칭성을 시각적으로 파악이 쉽고, 그룹 간 비교에 적합하여 시각화에서 자주 사용합니다.

Q1~Q3 범위를 상자로 표시해주고, 데이터의 중앙값은 선으로 표시해줍니다!

극단적인 값들은 점으로 표시하여, 얼만큼 이상치가 존재하는지 한 눈에 볼 수 있도록 해줍니다.

저는 보통은 그룹으로 그리는 경우가 많아서, seaborn을 많이 사용하지만 matplotlib으로도 Box plot을 그릴 수 있습니다.

matplotlib으로 Box plot 그리기

먼저 matplotlib를 사용해서 간단한 그래프를 그려보겠습니다.

우선은 Box plot을 그리기 위해 간단한 예제를 가지고 왔습니다!

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# 예제용 데이터 생성
np.random.seed(42)
group_a = np.random.normal(loc=60, scale=10, size=100)
group_b = np.random.normal(loc=70, scale=15, size=100)

# 데이터프레임으로 변환
df = pd.DataFrame({
    "점수": np.concatenate([group_a, group_b]),
    "그룹": ["A"]*100 + ["B"]*100
})

이제 위의 데이터를 바탕으로 Box plot을 그려보겠습니다.

굉장히 깔끔한 Box plot이 그러진 것을 보실 수 있습니다!

plt.rcParams['font.family'] = 'HYPost-Medium'

# 데이터 나누기
grouped = [df[df["그룹"] == "A"]["점수"],
           df[df["그룹"] == "B"]["점수"]]

# Box Plot 그리기
plt.figure(figsize=(10, 7))
plt.boxplot(grouped, labels=["그룹 A", "그룹 B"])
plt.title("Matplotlib Box Plot")
plt.ylabel("점수")
plt.show()

한글을 사용했기 때문에 깨지지 않기 위해 한글 세팅을 했는데요!

한글 세팅을 하는 방법이 궁금하신 분들은 아래 링크를 참고해주세요:)

https://yhj9855.com/entry/%EC%8B%9C%EA%B0%81%ED%99%94-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%9C%EA%B0%81%ED%99%94-%ED%99%9C%EC%9A%A9-%EB%B2%94%EB%A1%80-%EC%B6%95-%EC%A0%9C%EB%AA%A9-with-%ED%95%9C%EA%B8%80-%EC%A7%80%EC%A0%95

[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정)

ㄱ안녕하세요! 오늘은 파이썬으로 하는 시각화 활용 공통 사항에 대해 포스팅 하려고 합니다. 어떤 그래프를 그려도, x축/y축/범례/제목 등은 공통적으로 지정해야 하는데요.해당 부분이 간단해

yhj9855.com

seaborn을 사용하여 단일 그래프 그리기

이번에는 동일한 데이터를 사용해서 seaborn으로 그래프를 그려보도록 하겠습니다!

import seaborn as sns

plt.figure(figsize=(10, 7))
sns.boxplot(x="그룹", y="점수", data=df)
plt.title("Seaborn Box Plot")
plt.ylabel("점수")
plt.show()

비슷하면서 다르다는 것을 쉽게 보실 수 있습니다!

그래프 커스텀 하기

사실 그래프를 그리는 것은 정말 간단합니다!

하지만 그래프를 단순히 그리는 것과 이를 커스텀해서 사용하는 것은 정말 큰 차이가 있습니다.
지금부터는 다양하게 그래프를 커스텀하는 방법에 대해 소개해드리겠습니다!

색상 사용하기

제일 중요한 커스텀은 바로 그래프에 색상을 입히는 것입니다!

파이썬에서 사용할 수 있는 색상은 아래 포스팅을 참고해주세요!

https://yhj9855.com/entry/%EC%8B%9C%EA%B0%81%ED%99%94-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%9C%EA%B0%81%ED%99%94-%EC%83%89%EC%83%81-%EC%A0%95%EB%A6%AC-Matplotlib-Seaborn

[시각화] 파이썬 시각화 색상 정리 (Matplotlib, Seaborn)

안녕하세요! 오늘은 데이터 분석에서 정말 중요한 그래프 색상을 정리하는 포스팅을 진행하도록 하겠습니다. 데이터 분석에서 시각화는 정말 중요한데요.똑같이 데이터 분석을 진행했다고 해

yhj9855.com

plt.figure(figsize=(10, 7))
sns.boxplot(x="그룹", y="점수", data=df, palette=['deepskyblue', 'deeppink'])
plt.title("Seaborn Box Plot")
plt.ylabel("점수")
plt.show()

그래프 그룹으로 나누기

다음은 seaborn에서 제공해주는 타이타닉 예제를 바탕으로 남성과 여성으로 그룹을 나누어 그래프를 그려보겠습니다.

titanic = sns.load_dataset("titanic")

# 그래프 크기 설정
plt.figure(figsize=(15, 10))

# Box Plot 그리기
sns.boxplot(x="class", y="fare", hue="sex", data=titanic, palette=["lightblue", "lightcoral"])

# 제목 및 레이블 설정
plt.title("타이타닉 - 성별에 따른 선실 등급별 요금 비교", fontsize=14)
plt.xlabel("선실 등급")
plt.ylabel("요금 (달러)")
plt.legend(title="성별")
plt.show()

위의 그래프 같은 경우 500 근처에 있는 이상치 때문에 Third의 그래프가 잘 보이지 않는데요!

이럴 경우 y축의 가장 높은 값을 지정하여 이상치를 보여주지 않을 수도 있습니다.

titanic = sns.load_dataset("titanic")

# 그래프 크기 설정
plt.figure(figsize=(15, 10))

# Box Plot 그리기
sns.boxplot(x="class", y="fare", hue="sex", data=titanic, palette=["lightblue", "lightcoral"])

# 제목 및 레이블 설정
plt.title("타이타닉 - 성별에 따른 선실 등급별 요금 비교", fontsize=14)
plt.xlabel("선실 등급")
plt.ylabel("요금 (달러)")
plt.legend(title="성별")
plt.ylim(top=300)
plt.show()

300으로 최대 값을 자르니 그래프가 훨씬 잘 보이는 걸 보실 수 있는데요.

이상치를 제거하는 것은 나름의 리스트가 있기 때문에 어떤 것을 중점으로 시각화 하냐에 따라 사용법이 다를 수 있습니다!

그래프 축/제목/범례 설정

그래프 제목, x축, y축, 범례 등을 직접 지정할 수 있습니다!

축, 제목, 범례를 설정하는 방법 및 한글 설정하는 자세한 과정은 아래 포스팅을 참고해주세요.

[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정)

yhj9855.com

여기까지 Box plot 활용을 정리해보았습니다!

단순히 그래프를 그리는 것 이상으로 활용을 잘 하시면 정말 좋은 시각화를 그리실 수 있습니다:)

그래프가 잘 숙련되시면 아래 같은 그래프를 그리실 수 있습니다.

코드에 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > visualization(시각화)' 카테고리의 다른 글

[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정) (1)	2025.03.20
[시각화] 파이썬 시각화 활용 - Line plot (0)	2025.03.13
[시각화] 파이썬 시각화 색상 정리 (Matplotlib, Seaborn) (1)	2025.01.14

[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정)

Japduck_Coding 2025. 3. 20. 16:51

2025. 3. 20. 16:51

728x90

SMALL

728x90

ㄱ

안녕하세요! 오늘은 파이썬으로 하는 시각화 활용 공통 사항에 대해 포스팅 하려고 합니다.

어떤 그래프를 그려도, x축/y축/범례/제목 등은 공통적으로 지정해야 하는데요.

해당 부분이 간단해보이더라도, 시각화에서 상당히 중요한 역할을 하는 경우가 있습니다!

그래서 제가 시각화 하면서 활용했던 부분들을 정리해보려고 합니다('. • ᵕ •. `)

그래프 예시는 line plot으로 진행할 예정입니다.

line plot에 대한 자세한 내용이 궁금하신 분들은 아래 링크를 참고해주세요:)

https://yhj9855.com/entry/%EC%8B%9C%EA%B0%81%ED%99%94-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%9C%EA%B0%81%ED%99%94-%ED%99%9C%EC%9A%A9-Line-plot

[시각화] 파이썬 시각화 활용 - Line plot

안녕하세요! 오늘은 파이썬으로 하는 시각화 활용 Line plot에 대해 포스팅 하려고 합니다.Line plot이란?시간이나 연속적인 값을 나타낼 때 사용되는 그래프로, 일반적인 선 그래프 입니다.보통 x축

yhj9855.com

X축, Y축, 제목 설정하기

기본 설정하기

우선 가장 기본적으로 x축, y축, 제목을 설정하는 것부터 시작하겠습니다!

import numpy as np
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.xlabel("X-axis")
plt.ylabel("Y-axis")
plt.title("Title")
plt.plot(x, y)

위치 변경하기

x축, y축, 제목은 모두 위치를 변경할 수 있습니다.

위치는 두 가지 방법으로 옮길 수 있습니다.

1. pad를 사용하여 간격을 조절

import numpy as np
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.xlabel("X-axis", labelpad=40)
plt.ylabel("Y-axis", labelpad= 30)
plt.title("Title", pad=30)
plt.plot(x, y)

각 축과 제목의 간격이 멀어지신게 보이시나요?

pad 내 숫자가 커질수록 그래프와 축/제목 사이의 간격을 멀게 설정할 수 있습니다.

ㄴ

2. 좌표를 설정하여 위치를 조절

제목은 좌표를 설정해서 위치를 조절할 수 있습니다!

축의 경우에도 동일하게 좌표 설정을 할 수 있는데, 좌표대로 잘 움직이지 않아 거의 사용하지 않습니다ㅠㅠ

import numpy as np
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

fig, ax = plt.subplots(figsize=(6, 4))
# 글씨 크기 조절 가능
plt.xlabel("X-axis", fontsize=14)
plt.ylabel("Y-axis", fontsize=14)
ax.set_title("Title", fontsize=14, x=0.8, y=1.05)
plt.plot(x, y)

제목의 위치가 변경되신게 보이시나요?

x는 좌우의 위치를, y는 상하의 위치를 변경할 수 있습니다!

범례 설정하기

범례란?

범례는 지도나 차트 등에서 참고하라는 뜻으로 나타낸 정보입니다.

파이썬 시각화에서는 보통 각 그래프가 어떤 것을 나타내는지 표기할 때 많이 사용합니다!

아래 그래프처럼 노란색과 연두색이 각각 어떤 그래프를 나타내는지 아래쪽에 표기된 것이 범례입니다.

범례 생성하기

보통 범례는 자동으로 생성되는 경우가 많은데, 그래프를 각각 그릴 경우에는 범례가 생성되지 않습니다.

이 때 직접 범례를 설정하는 것도 가능합니다.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)

line1, = plt.plot(x, y, color='lightskyblue')
line2, = plt.plot(x, y1, color='lightcoral')

# 범례 직접 설정
plt.legend(handles=[line1, line2], labels=["Cos(x)", "Sin(x)"])

plt.xlabel("X-axis")
plt.ylabel("Y-axis")
plt.title("Legend Example")

plt.show()

plt.legend(handles=[line1, line2], labels=["Cos(x)", "Sin(x)"]) 여기서 loc = 옵션을 추가하게 되면 범례의 위치를 어느 정도 조정할 수 있습니다!

예를 들어 upper right 옵션으로 하게 되면, 오른쪽 위에 범례가 생성되는데요, 옵션을 정하지 않으면 가장 적당한 위치에 알아서 생성이 됩니다.

ㄷ

위치 변경하기

위의 사진처럼 범례가 자동으로 생성될 때 그래프를 가리는 경우를 자주 접하실 수 있는데요!

이 때 범례 위치를 변경하는 코드는 알아두시면 유용합니다:)

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)


line1, = plt.plot(x, y, color='lightskyblue')
line2, = plt.plot(x, y1, color='lightcoral')

# 범례 직접 설정
plt.legend(handles=[line1, line2], labels=["Cos(x)", "Sin(x)"], loc='lower right', bbox_to_anchor=(0.81, 0.03))

plt.xlabel("X-axis")
plt.ylabel("Y-axis")
plt.title("Legend Example")

plt.show()

범례의 위치가 변경된 게 보이시나요?

지금은 예쁘게 옮긴 건 아니지만, 범례를 자유롭게 움직일 수 있는 것은 굉장히 편리하니 잘 사용해주세요!

먼저 loc 옵션을 조정하여 큰 틀의 위치를 정해주시고, bbox_to_anchor 내 좌표로 세세한 위치를 조정해주시면 됩니다:)

한글 설정하기

마지막으로 각 축, 제목, 범례를 한글로 정하는 방법에 대해서 알려드리겠습니다!

보통 한글로 설정을 하게 되면 아래 사진처럼 한글이 깨져서 나오기 때문에 한글 설정이 먼저 필요합니다.

한글 설정을 위해서는 먼저 한글 폰트를 찾아야 합니다.

C:\Windows\Fonts 해당 경로로 가시면, 컴퓨터에 설치되어 있는 폰트를 보실 수 있습니다!

이제 저희가 사용하고 싶은 폰트를 고르면 되는데, 아쉽게도 모든 폰트를 지원하지는 않습니다ㅠㅠ

파이썬은 바탕, 굴림, 궁서체 중 골라서 사용하시는게 안전합니다:) (그래도 이것저것 해보시는 걸 추천 드려요)

위의 글씨체 중 하나를 골라 마우스 오른쪽 클릭→속성→이름 복사를 하시면 되는데, 이름은 .ttc 앞까지만 복사해주세요!

※ 만약에 속성이 나타나지 않는다면, 폰트를 더블 클릭해서 들어가신 다음 진행하시면 됩니다.

간혹 HY시리즈는 이름 그대로를 사용하셔야 되는 경우도 있습니다.

예를 들면 HYPost의 경우 HYPost-Medium, HY고딕의 경우 HYGothic-Medium을 사용합니다.

ㄹ

이제 아래 코드를 실행하시게 되면 한글 지원이 가능합니다.

plt.rcParams['font.family'] = 'HYPost-Medium'

이제 한글로 잘 보이는 걸 알 수 있습니다!!

하지만 한글로 변경할 때는 종종 숫자의 마이너스가 깨지는 경우가 있어요ㅠㅠ

해당 경우는 마이너스가 지원되는 한글을 써야하는데, 저는 보통 굴림을 사용합니다.

plt.rcParams['font.family'] = 'gulim'

이제 한글과 마이너스가 모두 잘 보이는 것을 확인할 수 있습니다!

여기까지 축, 제목, 범례 활용을 정리해보았습니다!

이것저것 쓰다보니 꽤 길어졌는데요, 시각화는 예쁘면 예쁠수록 도움이 되기 때문에 세세한 부분이라도 잘 활용하시면 좋을 것 같습니다:)

특히 한글 설정 같은 경우, 글씨체가 이쁘면 보기도 좋으니 여러 폰트로 한 번 사용해보시길 추천드려요ദ്ദി・ᴗ・)✧

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > visualization(시각화)' 카테고리의 다른 글

[시각화] 파이썬 시각화 활용 - Box plot (0)	2025.05.06
[시각화] 파이썬 시각화 활용 - Line plot (0)	2025.03.13
[시각화] 파이썬 시각화 색상 정리 (Matplotlib, Seaborn) (1)	2025.01.14

[시각화] 파이썬 시각화 활용 - Line plot

Japduck_Coding 2025. 3. 13. 12:46

2025. 3. 13. 12:46

728x90

SMALL

728x90

안녕하세요! 오늘은 파이썬으로 하는 시각화 활용 Line plot에 대해 포스팅 하려고 합니다.

Line plot이란?

시간이나 연속적인 값을 나타낼 때 사용되는 그래프로, 일반적인 선 그래프 입니다.

보통 x축에는 연속적인 변수를 y축에는 수치형 데이터를 배치해서 사용하는 경우가 일반적입니다.

저는 보통 식을 그릴 때는 matplotlib, 데이터 프레임이 있는 경우에는 seaborn, matplotlib 두 개를 함께 사용해서 line plot을 그립니다.

matplotlib로 단일 그래프 그리기

우선 먼저 matplotlib를 사용해서 간단한 그래프를 그려보겠습니다.

아래처럼 숫자를 직접 입력하거나, 특정 식이 존재한다면 matplotlib만 사용해서 그리는 것이 간단합니다!

import matplotlib.pyplot as plt

# 왼쪽이 x 값, 오른쪽이 y 값
plt.plot([1, 2, 3, 4], [2, 3, 5, 10])
plt.show()

import numpy as np
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.plot(x, y)
plt.show()

seaborn을 함께 사용하여 단일 그래프 그리기

seaborn은 데이터 프레임과 호환성이 좋기 때문에 보통 데이터 프레임으로 사용합니다.

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
df = pd.DataFrame({"X": x, "Y": y})

sns.lineplot(x="X", y="Y", data=df)

그래프 커스텀 하기

사실 그래프를 그리는 것은 정말 간단합니다!

하지만 그래프를 단순히 그리는 것과 이를 커스텀해서 사용하는 것은 정말 큰 차이가 있습니다.

지금부터는 다양하게 그래프를 커스텀하는 방법에 대해 소개해드리겠습니다!

색상 사용하기

그래프에 색상을 입히는 것입니다.

파이썬에서 사용할 수 있는 색상은 아래 포스팅을 참고해주세요!

https://yhj9855.com/entry/%EC%8B%9C%EA%B0%81%ED%99%94-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%9C%EA%B0%81%ED%99%94-%EC%83%89%EC%83%81-%EC%A0%95%EB%A6%AC-Matplotlib-Seaborn

[시각화] 파이썬 시각화 색상 정리 (Matplotlib, Seaborn)

yhj9855.com

# matplot
plt.plot(x, y, color='deepskyblue')

# seaborn
sns.lineplot(x="X", y="Y", data=df, color='deeppink')

그래프 동시에 그리기

하나의 영역에 여러 개의 그래프를 그릴 수 있습니다.

그래프가 N개면 N개만큼 그려주면 동일 영역에 그려지는 것을 확인하실 수 있습니다.

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)
df = pd.DataFrame({"X": x, "Y": y})
df1 = pd.DataFrame({"X": x, "Y": y1})

# seaborn
sns.lineplot(x="X", y="Y", data=df, color='lightskyblue')
sns.lineplot(x="X", y="Y", data=df1, color='lightcoral')

# matplotlib
plt.plot(x, y, color='deepskyblue')
plt.plot(x, y1, color='deeppink')

seaborn에서는 하나의 데이터 프레임에서 특정 열을 기준으로 두 개의 그래프를 나눌 수 있습니다.

아래 코드를 보시면 Y열이 label을 기준으로 cos그래프와 sin그래프가 나눠져있기 때문에 이를 label로 분리하여, 그래프를 그릴 수 있습니다.

데이터 분석을 하실 때 생각보다 많이 사용되기 때문에 잘 활용하시면 좋습니다!

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)
df1 = pd.DataFrame({"X": x, "Y": y, "label": 'cos'})
df2 = pd.DataFrame({"X": x, "Y": y1, "label":'sin'})

# df1 밑에 df2를 붙이는 작업
df = pd.concat([df1, df2], ignore_index= True)

# 그래프 영역 크기 정하기 (가로/세로)
plt.figure(figsize=(8, 5))
sns.lineplot(x="X", y="Y", data=df, hue='label', palette=['gold', 'limegreen'])

그래프 축/제목/범례 설정

그래프 제목, x축, y축, 범례 등을 직접 지정할 수 있습니다!

축, 제목, 범례를 설정하는 방법 및 한글 설정하는 자세한 과정은 아래 포스팅을 참고해주세요.

[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정)

yhj9855.com

그래프 마크 설정하기

그래프 내 x 좌표마다 마크를 설정할 수 있습니다.

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)
df = pd.DataFrame({"X": x, "Y": y})
df1 = pd.DataFrame({"X": x, "Y": y1})

plt.figure(figsize=(8, 5))

# seaborn
sns.lineplot(x="X", y="Y", data=df, color='lightskyblue', marker='o')
sns.lineplot(x="X", y="Y", data=df1, color='lightcoral',  marker='*', markersize=9)

# matplotlib
plt.plot(x, y, color='deepskyblue', marker='o', markersize = 4)
plt.plot(x, y1, color='deeppink', marker='^',  markersize = 5)

하지만 이렇게 x좌표마다 마크를 설정하는 것이 아닌 특정 좌표마다 마크를 설정하고 싶으실 수도 있습니다.

그럴 때는 그래프 위에 점으로 된 그래프를 하나 더 그리는 방향으로 진행할 수 있습니다!

아래 코드는 5번째마다 그래프 위에 점을 찍는다고 보시면 됩니다.

for문 안에 있는 코드를 변경하시면 원하시는 곳에 마크 표시를 하실 수 있습니다.

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)
df = pd.DataFrame({"X": x, "Y": y})
df1 = pd.DataFrame({"X": x, "Y": y1})

plt.figure(figsize=(8, 5))
sns.lineplot(x="X", y="Y", data=df, color='orange')
sns.lineplot(x="X", y="Y", data=df1, color='limegreen')

for i in range(len(x)) :
    if i%5 == 0 :
        plt.scatter(x[i], y[i], color='darkorange', s=15)
        plt.scatter(x[i], y1[i], color='forestgreen', s=15)

그래프 텍스트 표기하기

그래프 내 텍스트를 표기할 수도 있습니다.

텍스트 표기는 위에 마크 설정하는 것처럼 그래프 위에 텍스트를 하나 더 그리는 방향으로 진행할 수 있습니다.

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)
df = pd.DataFrame({"X": x, "Y": y})
df1 = pd.DataFrame({"X": x, "Y": y1})

plt.figure(figsize=(8, 5))
sns.lineplot(x="X", y="Y", data=df, color='orange')
sns.lineplot(x="X", y="Y", data=df1, color='limegreen')

for i in range(len(x)) :
    if i%5 == 0 :
        plt.scatter(x[i], y[i], color='darkorange', s=15)
        plt.text(x[i]+0.02, y[i]+0.01, f'{y[i]:.1f}', color='darkorange', ha='left', va='bottom', fontsize=8, fontweight='bold')
        plt.scatter(x[i], y1[i], color='forestgreen', s=15)
        plt.text(x[i]+0.05, y1[i]+0.01, f'{y1[i]:.1f}', color='forestgreen', ha='left', va='bottom', fontsize=8, fontweight='bold')
        
plt.xlabel('')
plt.ylabel('')

여기까지 line plot 활용을 정리해보았습니다!

단순히 그래프를 그리는 것 이상으로 활용하는 부분이 정말 생각보다 많았네요ㅠㅠ

그래프가 잘 숙련되시면 아래 같은 그래프를 그리실 수 있습니다.

코드에 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > visualization(시각화)' 카테고리의 다른 글

[시각화] 파이썬 시각화 활용 - Box plot (0)	2025.05.06
[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정) (1)	2025.03.20
[시각화] 파이썬 시각화 색상 정리 (Matplotlib, Seaborn) (1)	2025.01.14

[RL] gymnasium cart pole 강화 학습 - DDQN

Japduck_Coding 2025. 3. 6. 14:41

2025. 3. 6. 14:41

728x90

SMALL

728x90

안녕하세요! 오늘은 기존에 작성한 cart pole 문제를 DDQN(Double Deep Q-Network) 으로 진행하는 방법에 대해 포스팅 하겠습니다.

DDQN (Double Deep Q-Network) 이란?

강화 학습의 한 방법으로, DQN과 비슷하지만 학습할 때 Neural Network(인공 신경망)를 두 개 사용하는 학습 방법입니다.

DQN에서 Q-Network가 두 개 사용되었다고 보시면 될 것 같아요!

DQN에 대해 궁금하신 분들은 cart pole를 DQN으로 진행하는 아래 포스팅을 참고 해주시면 됩니다.

https://yhj9855.com/entry/RL-gymnasium-cart-pole-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-DQN

[RL] gymnasium cart pole 강화 학습 - DQN

안녕하세요! 오늘은 기존에 작성한 cart pole 문제를 DQN(Deep Q-Network) 으로 진행하는 방법에 대해 포스팅 하겠습니다.DQN (Deep Q-Network) 이란?강화 학습의 한 방법으로, Q-learning에서 Q-table 대신 Neural Netw

yhj9855.com

cart pole에 관한 전체적인 설명은 아래 포스팅에서 진행하고 있으니, 먼저 확인해주세요!!

https://yhj9855.com/entry/RL-gymnasium-cart-pole-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-1

[RL] gymnasium cart pole 강화 학습 - 1

안녕하세요! 오늘은 gymnasium에서 제공하는 cart pole 문제 설명에 대한 포스팅 진행하겠습니다. 저는 cart pole 문제를 DQN과 DDQN 두 가지 방법으로 풀어보았는데요!각각 전체 코드는 포스팅 가장 아래

yhj9855.com

그럼 본격적으로 DDQN으로 cart pole 문제를 풀어보도록 하겠습니다.

Neural Network 구현

우선 먼저 DDQN에서 Neural Network을 먼저 구현합니다.

Neural Network을 구현하는 코드는 아래와 같습니다.

class DDQN(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(DDQN, self).__init__()
        self.fc1 = nn.Linear(state_dim, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, action_dim)

    def forward(self, x):
    	x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x

레이어 층을 몇 개 사용할 것인지, 활성 함수는 어떤 것을 사용할 것인지는 모두 하이퍼 파라미터 입니다!

저는 3개의 층을 사용했고, 모두 Relu 함수를 사용했습니다.

보통 어떤 활성 함수를 사용하면 좋을지 모를 때, Relu 함수를 많이 사용하는데요, 그래도 다른 활성 함수도 사용해보시는 걸 추천 드려요!!

저는 tanh 함수를 사용했지만, 학습이 너무 진행되지 않아서 포기했었습니다ㅜㅜ

Replay Memory 구현

다음은 Replay Memory를 구현합니다.

Replay Memory란?

DDQN처럼 강화 학습과 딥러닝이 혼합된 알고리즘을 사용할 때, 더 안정적이고 효율적인 학습을 하기 위한 방법입니다.

환경에서 만들어진 에피소드를 저장해두었다가, 랜덤으로 샘플링해서 학습하는 것이 핵심 아이디어 입니다.

매 순간순간 에피소드를 학습하게 되면, 비슷한 경험으로 학습이 되지 않고, 편향적으로 학습될 가능성이 있습니다.

Replay Memory 방법을 활용하면 해당 단점을 완화할 수 있어, 자주 사용되는 방법입니다.

Replay Memory를 코드로 구현하는 방법은 아래와 같습니다.

class ReplayMemory:
    def __init__(self, max_len):
        self.memory = deque(maxlen=max_len)

    def push(self, transition):
        self.memory.append(transition)

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

행동 선택하기

다음은 Q-learning과 비슷하게 Q값을 바탕으로 행동을 선택하는 것을 구현합니다.

저는 여기서 행동을 선택하는 방법을 두 가지 소개 드리려고 합니다!

1. ϵ-greedy로 행동 선택하기

ϵ-greedy란?

탐험과 이용의 균형을 맞추기 위한 행동 선택 방법으로, 아래 공식을 따릅니다.

여기서 ϵ은 0과 1 사이의 값으로 ϵ 확률 만큼은 랜덤하게 행동을 하게 하여 탐험을 진행하도록 하고, (1-ϵ) 확률 만큼 Q 값이 가장 높은 행동을 선택하도록 합니다.

해당 ϵ을 초반에 높게 설정하고 점차 ϵ을 줄임으로써, 초반에는 랜덤 행동을 통한 탐험을 하게 하고 점차 Q 값을 이용하도록 행동을 선택할 수 있습니다.

ϵ-greedy를 활용하여 행동을 선택하는 코드는 아래와 같습니다.

def select_action(state, target_net, action_dim):
    if random.random() < epsilon:
        return random.randint(0, action_dim - 1)
    else:
        return target_net(state).argmax().item()

여기서 행동 값을 target_net을 바탕으로 진행을 하고 있는데요.

학습이 진행 중인 policy_net에서 행동을 선택할 경우, 학습이 불안정할 가능성이 높아 target_net에서 진행하는 것이 더 좋습니다.

2. 확률로 행동 선택하기

해당 방법은 Q값을 확률로 변경한 다음, 확률대로 행동을 선택하게 하는 것을 의미합니다.

이 방법을 사용할 경우, 확률적으로 행동을 선택하기 때문에 어느 정도 학습이 진행되어도 탐험을 보장한다는 것과 ϵ을 따로 세팅해주지 않아도 되는 것이 장점이라고 볼 수 있습니다!

확률로 행동을 선택하는 코드는 아래와 같습니다.

def select_action(state, target_net, action_dim):
    q_value = target_net(state)
    # Q 값을 확률 값으로 바꾸는 과정
    p = F.softmax(q_value, dim=0).tolist()
    # 부동소수점 오차로 인해 합이 1이 안되는 문제 해결
    p = np.array(p)
    p /= p.sum()
    action = np.random.choice(action_dim, p=p)
    return action

DDQN 공식을 사용해서 업데이트

이제 DDQN 공식을 사용해서 네트워크를 업데이트 하는 것을 구현해보도록 하겠습니다.

코드로 들어가지 전에 먼저 DDQN 공식을 먼저 살펴보겠습니다.

기본적으로는 DQN과 비슷한 공식입니다!

DQN과 Q가 두 번 사용된 것을 보실 수 있습니다.

DQN과 마찬가지로 DDQN은 딥러닝을 사용하기 때문에 자체적으로 옵티마이저와 learning rate가 들어가게 됩니다.

이 두 개가 DDQN의 α로 작용을 하기 때문에 실제로 사용하는 공식에는 α가 사라져 아래와 같은 공식이 됩니다!

θ와 θ￣ 는 α 대신 네트워크가 작동하는 부분이라고 생각하시면 됩니다.

이제 해당 공식을 바탕으로 DDQN을 진행하는 코드는 아래와 같습니다.

def optimize_model(memory, policy_net, target_net, optimizer):
	# batch_size만큼 데이터가 메모리에 쌓였을 때만 학습 진행
    if len(memory) < batch_size:
        return

    # transitions = (state, action, reward, next_state, done)
    transitions = memory.sample(batch_size)
    # state, action, reward, next_state, done을 각각 묶어서 list의 형태로 만드는 작업
    batch = list(zip(*transitions))
    
    state_batch = torch.stack(batch[0])
    action_batch = torch.tensor(batch[1]).unsqueeze(1)
    reward_batch = torch.tensor(batch[2])
    next_state_batch = torch.stack(batch[3])
    done_batch = torch.tensor(batch[4], dtype=torch.float32)
    
    # DDQN
    q_values = policy_net(state_batch).gather(1, action_batch)
    next_action = policy_net(next_state_batch).argmax(1).unsqueeze(1)
    next_q_values = target_net(next_state_batch).gather(1, next_action).squeeze().detach()
    # (1-done_batch)을 통해 에피소드가 끝났는지 아닌지를 판단
    target_q_values = reward_batch + (gamma * next_q_values * (1 - done_batch))
    loss = nn.MSELoss()(q_values.squeeze(), target_q_values)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

policy_net에서 가져온 next_action을 바탕으로 target_net에서 next_q_values 값을 구하고 있습니다.

이처럼 policy_net, target_net 두 가지에서 가져온 값으로 계산을 진행하기 때문에 Double Deep Q-Network가 된 것입니다.

모델 학습

이제 본격적으로 학습을 진행해보도록 하겠습니다.

한 가지 중요한 점은 Cart Pole 환경이 500점을 달성해도, 에피소드 완료라고 판단하지 않기 때문에 저희가 직접 판단해줘야 합니다.

학습을 진행하는 코드는 아래와 같습니다.

# 초기 세팅
policy_net = DDQN(state_dim, action_dim)
target_net = DDQN(state_dim, action_dim)

target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

optimizer = optim.Adam(policy_net.parameters(), lr=learning_rate)
memory = ReplayMemory(memory_size)

# epsilon-greedy 방법으로 행동을 선택할 때 필요
# epsilon = epsilon_start

episode_rewards = []
episode_reward = 0

save_dir = "dqn_saved_models"
os.makedirs(save_dir, exist_ok=True)

# 모델 학습
for episode in range(episodes):
    state = torch.tensor(env.reset()[0], dtype=torch.float32)
    if episode % 1000 == 0: 
        print(f"Episode {episode}, Avg Reward: {episode_reward/1000}")
    if episode % 1000 == 0 :
        episode_reward = 0
    total_reward = 0

    # 500 초과인 경우는 done으로 판단
    while total_reward < 501 :
        action = select_action(state, target_net, action_dim)
        next_state, reward, done, _, _ = env.step(action)
        next_state = torch.tensor(next_state, dtype=torch.float32)
        memory.push((state, action, reward, next_state, done))

        state = next_state
        total_reward += reward

        optimize_model(memory, policy_net, target_net, optimizer)
        
        if done :
            break
    # 500점 달성한 모델 저장
    if total_reward >= 500 :
         model_path = os.path.join(save_dir, f"dqn_model_episode_{episode}.pth")
         torch.save(policy_net.state_dict(), model_path)
    
    episode_reward += total_reward
    # epsilon-greedy로 action을 선택할 때는 있어야 함
    # if episode % 10 == 0 :
    #     epsilon = max(epsilon_end, epsilon*epsilon_decay)
    
    if episode % 20 == 0:
        target_net.load_state_dict(policy_net.state_dict())

    episode_rewards.append(total_reward)

리워드 시각화 및 모델 테스트

마지막으로 저희가 학습한 모델이 잘 학습되었는지 확인하기 위해, 리워드를 시각화하고 모델을 테스트해보겠습니다.

먼저 리워드 시각화 하는 코드는 아래와 같습니다

plt.plot(episode_rewards)
plt.xlabel('Episode')
plt.ylabel('Total Reward')
plt.title('DQN on CartPole')
plt.show()

저는 위와 같은 결과 값이 나왔는데요, 한결 같은 값을 가지는 것은 아니지만 전체적으로 점점 리워드가 상승하는 것을 볼 수 있습니다.

이처럼 여러분의 리워드도 전체적으로 상승하는 형상을 보이고 있다면, 학습이 잘 된 것으로 보실 수 있습니다.

다음은 모델 테스트를 진행해보겠습니다.

저는 모든 모델을 테스트 한 것은 아니도, 500점 이상을 달성한 모델만 따로 저장하여 모델 테스트를 진행해보았습니다.

리워드 그래프에서도 보셨듯, 전체적으로 리워드가 상승하는 것이지 모든 모델이 좋은 모델이라고는 볼 수 없기 때문에 최대치의 리워드를 달성한 모델로 테스트를 진행하였어요!

모델 테스트를 진행하는 코드는 아래와 같습니다.

# 테스트 시, render 활성화 필요
env = gym.make("CartPole-v1", render_mode='human')
# 500 달성한 모델 업로드
model_paths = glob.glob(os.path.join(save_dir, "*.pth"))

model_i = 0
for model_path in model_paths :
    policy_net.load_state_dict(torch.load(model_path))
    policy_net.eval()
    
    avg_reward = 0
    
    # 각 모델 별 10번 진행
    for episode in range(10) :    
        state = torch.tensor(env.reset()[0], dtype=torch.float32)
        total_reward = 0

        while total_reward < 501 :
            with torch.no_grad() :
                action = policy_net(state).argmax().item()

            next_state, reward, done, _, _ = env.step(action)
            next_state = torch.tensor(next_state, dtype=torch.float32)

            state = next_state
            total_reward += reward
            
            if done :
                break

        avg_reward += total_reward
    print(f"model {model_i + 1}, Avg Reward: {avg_reward/10}")
    model_i += 1

특정 모델은 500점 리워드를 달성하지 못하는 경우도 있었지만, 대부분은 500점 이상을 달성하는 것을 볼 수 있었습니다.

모델마다 다른 방식으로 500점을 달성하는데, 한 번 구경해보시는 것도 좋을 것 같아요!

전체 코드

import gymnasium as gym
import torch
import torch.nn as nn
import torch.optim as optim
import random
import numpy as np
from collections import deque
import matplotlib.pyplot as plt
import os
import glob
import torch.nn.functional as F

# 하이퍼 파라미터
gamma = 0.99
learning_rate = 0.0005
batch_size = 100
memory_size = 5000
episodes = 5000
# ϵ-greedy 사용 시, 필요
# epsilon_start = 1.0
# epsilon_end = 0.001
# epsilon_decay = 0.995

class DDQN(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(state_dim, 32)
        self.fc2 = nn.Linear(32, 32)
        self.fc3 = nn.Linear(32, action_dim)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x

class ReplayMemory:
    def __init__(self, capacity):
        self.memory = deque(maxlen=capacity)

    def push(self, transition):
        self.memory.append(transition)

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

def select_action(state, target_net, action_dim):
	# ϵ-greedy
	# if random.random() < epsilon:
    #     return random.randint(0, action_dim - 1)
    # else:
    #     return target_net(state).argmax().item()
    
    q_value = target_net(state)
    p = F.softmax(q_value, dim=0).tolist()
    p = np.array(p)
    p /= p.sum()
    action = np.random.choice(action_dim, p=p)
    return action

def optimize_model(memory, policy_net, target_net, optimizer):
	if len(memory) < batch_size:
        return

    transitions = memory.sample(batch_size)
    batch = list(zip(*transitions))
    
    state_batch = torch.stack(batch[0])
    action_batch = torch.tensor(batch[1]).unsqueeze(1)
    reward_batch = torch.tensor(batch[2])
    next_state_batch = torch.stack(batch[3])
    done_batch = torch.tensor(batch[4], dtype=torch.float32)
    
    q_values = policy_net(state_batch).gather(1, action_batch)
    next_action = policy_net(next_state_batch).argmax(1).unsqueeze(1)
    next_q_values = target_net(next_state_batch).gather(1, next_action).squeeze().detach()
    target_q_values = reward_batch + (gamma * next_q_values * (1 - done_batch))
    loss = nn.MSELoss()(q_values.squeeze(), target_q_values)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()


env = gym.make("CartPole-v1")
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n

policy_net = DDQN(state_dim, action_dim)
target_net = DDQN(state_dim, action_dim)

target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

optimizer = optim.Adam(policy_net.parameters(), lr=learning_rate)
memory = ReplayMemory(memory_size)

# epsilon = epsilon_start

episode_rewards = []
episode_reward = 0
save_dir = "dqn_saved_models"
os.makedirs(save_dir, exist_ok=True)

for episode in range(episodes):
    state = torch.tensor(env.reset()[0], dtype=torch.float32)
    if episode % 100 == 0: 
        print(f"Episode {episode}, Avg Reward: {episode_reward/100}")
    if episode % 100 == 0 :
        episode_reward = 0
    total_reward = 0

    # 500 초과인 경우는 done으로 판단
    while total_reward < 501 :
        action = select_action(state, target_net, action_dim)

        next_state, reward, done, _, _ = env.step(action)
        next_state = torch.tensor(next_state, dtype=torch.float32)

        memory.push((state, action, reward, next_state, done))

        state = next_state
        total_reward += reward

        optimize_model(memory, policy_net, target_net, optimizer)
        
        if done :
            break
    # 500점 달성한 모델 저장
    if total_reward >= 500 :
        model_path = os.path.join(save_dir, f"dqn_model_episode_{episode}.pth")
        torch.save(policy_net.state_dict(), model_path)
    
    episode_reward += total_reward
    
    # ϵ-greedy 사용 시, 필요
  	# if episode % 10 == 0 :
    #     epsilon = max(epsilon_end, epsilon*epsilon_decay)
    
    if episode % 20 == 0:
        target_net.load_state_dict(policy_net.state_dict())

    episode_rewards.append(total_reward)

plt.plot(episode_rewards)
plt.xlabel('Episode')
plt.ylabel('Total Reward')
plt.title('DQN on CartPole')
plt.show()

# 테스트 진행
env = gym.make("CartPole-v1", render_mode='human')
# 500 달성한 모델 업로드
model_paths = glob.glob(os.path.join(save_dir, "*.pth"))

model_i = 0
for model_path in model_paths :
    policy_net.load_state_dict(torch.load(model_path))
    policy_net.eval()
    
    avg_reward = 0
    
    # 각 모델 별 10번 진행
    for episode in range(10) :    
        state = torch.tensor(env.reset()[0], dtype=torch.float32)
        total_reward = 0

        while total_reward < 501 :
            with torch.no_grad() :
                action = policy_net(state).argmax().item()

            next_state, reward, done, _, _ = env.step(action)
            next_state = torch.tensor(next_state, dtype=torch.float32)

            state = next_state
            total_reward += reward
            
            if done :
                break

        avg_reward += total_reward
    print(f"model {model_i + 1}, Avg Reward: {avg_reward/10}")
    model_i += 1

사실 cart pole 문제는 간단한 편이라서, DQN이랑 DDQN이랑 성능이 거의 차이가 나지 않았습니다!

다만 그래도 Q-Network를 두 개를 사용한다는 개념이 헷갈릴 수 있기 때문에 한 번은 구현해보시는 걸 추천드려요:)

코드에 대해 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

[RL] gymnasium cart pole 강화 학습 - DQN (0)	2025.02.28
[RL] gymnasium cart pole 강화 학습 - 1 (0)	2025.02.18
[RL] gymnasium frozen lake 강화 학습 - SARSA (1)	2025.02.11
[RL] gymnasium frozen lake 강화 학습 - 2 (2)	2025.02.03

[RL] gymnasium cart pole 강화 학습 - DQN

Japduck_Coding 2025. 2. 28. 20:12

2025. 2. 28. 20:12

728x90

SMALL

728x90

안녕하세요! 오늘은 기존에 작성한 cart pole 문제를 DQN(Deep Q-Network) 으로 진행하는 방법에 대해 포스팅 하겠습니다.

DQN (Deep Q-Network) 이란?

강화 학습의 한 방법으로, Q-learning에서 Q-table 대신 Neural Network(인공 신경망)을 사용해서 학습하는 방법입니다.

state가 많아질수록 Q-table을 저장하고 업데이트 하는 것이 어렵기 때문에, 신경망이 대신 예측하도록 하는 것입니다.

Q-learning+DNN(Deep Neural Network)라고 보시면 좋을 것 같아요!

Q-learning에 대해 궁금하신 분들은 frozen lake를 Q-learning으로 진행하는 아래 포스팅을 참고 해주시면 됩니다.

https://yhj9855.com/entry/RL-gymnasium-frozen-lake-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-2

[RL] gymnasium frozen lake 강화 학습 - 2

안녕하세요! 오늘은 기존에 작성한 frozen lake 문제를 Q-learning으로 진행하는 방법에 대해 포스팅 하겠습니다. Q-learning이란?강화 학습의 한 방법으로, Q라는 테이블을 이용하는 것입니다.Q 테이블

yhj9855.com

cart pole에 관한 전체적인 설명은 아래 포스팅에서 진행하고 있으니, 먼저 확인해주세요!!

https://yhj9855.com/entry/RL-gymnasium-cart-pole-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-1

[RL] gymnasium cart pole 강화 학습 - 1

yhj9855.com

그럼 본격적으로 DQN으로 cart pole 문제를 풀어보도록 하겠습니다.

Neural Network 구현

우선 먼저 DQN에서 Neural Network을 먼저 구현합니다.

Neural Network을 구현하는 코드는 아래와 같습니다.

class DQN(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(state_dim, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, action_dim)

    def forward(self, x):
    	x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x

레이어 층을 몇 개 사용할 것인지, 활성 함수는 어떤 것을 사용할 것인지는 모두 하이퍼 파라미터 입니다!

저는 3개의 층을 사용했고, 모두 Relu 함수를 사용했습니다.

보통 어떤 활성 함수를 사용하면 좋을지 모를 때, Relu 함수를 많이 사용하는데요, 그래도 다른 활성 함수도 사용해보시는 걸 추천 드려요!!

저는 tanh 함수를 사용했지만, 학습이 너무 진행되지 않아서 포기했었습니다ㅜㅜ

Replay Memory 구현

다음은 Replay Memory를 구현합니다.

Replay Memory란?

DQN처럼 강화 학습과 딥러닝이 혼합된 알고리즘을 사용할 때, 더 안정적이고 효율적인 학습을 하기 위한 방법입니다.

환경에서 만들어진 에피소드를 저장해두었다가, 랜덤으로 샘플링해서 학습하는 것이 핵심 아이디어 입니다.

매 순간순간 에피소드를 학습하게 되면, 비슷한 경험으로 학습이 되지 않고, 편향적으로 학습될 가능성이 있습니다.

Replay Memory 방법을 활용하면 해당 단점을 완화할 수 있어, 자주 사용되는 방법입니다.

Replay Memory를 코드로 구현하는 방법은 아래와 같습니다.

class ReplayMemory:
    def __init__(self, max_len):
        self.memory = deque(maxlen=max_len)

    def push(self, transition):
        self.memory.append(transition)

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

행동 선택하기

다음은 Q-learning과 비슷하게 Q값을 바탕으로 행동을 선택하는 것을 구현합니다.

저는 여기서 행동을 선택하는 방법을 두 가지 소개 드리려고 합니다!

1. ϵ-greedy로 행동 선택하기

ϵ-greedy란?

탐험과 이용의 균형을 맞추기 위한 행동 선택 방법으로, 아래 공식을 따릅니다.

ϵ-greedy를 활용하여 행동을 선택하는 코드는 아래와 같습니다.

def select_action(state, target_net, action_dim):
    if random.random() < epsilon:
        return random.randint(0, action_dim - 1)
    else:
        return target_net(state).argmax().item()

여기서 행동 값을 target_net을 바탕으로 진행을 하고 있는데요.

학습이 진행 중인 policy_net에서 행동을 선택할 경우, 학습이 불안정할 가능성이 높아 target_net에서 진행하는 것이 더 좋습니다.

2. 확률로 행동 선택하기

해당 방법은 Q값을 확률로 변경한 다음, 확률대로 행동을 선택하게 하는 것을 의미합니다.

확률로 행동을 선택하는 코드는 아래와 같습니다.

def select_action(state, target_net, action_dim):
    q_value = target_net(state)
    # Q 값을 확률 값으로 바꾸는 과정
    p = F.softmax(q_value, dim=0).tolist()
    # 부동소수점 오차로 인해 합이 1이 안되는 문제 해결
    p = np.array(p)
    p /= p.sum()
    action = np.random.choice(action_dim, p=p)
    return action

DQN 공식을 사용해서 업데이트

이제 DQN 공식을 사용해서 네트워크를 업데이트 하는 것을 구현해보도록 하겠습니다.

코드로 들어가지 전에 먼저 DQN 공식을 먼저 살펴보겠습니다.

기본적으로는 Q-learning과 동일한 공식입니다!

하지만 DQN은 딥러닝을 사용하기 때문에 자체적으로 옵티마이저와 learning rate가 들어가게 됩니다.

이 두 개가 DQN의 α로 작용을 하기 때문에 실제로 사용하는 공식에는 α가 사라져 아래와 같은 공식이 됩니다!

θ￣ 는 α 대신 네트워크가 작동하는 부분이라고 생각하시면 됩니다.

α를 사용하지 않기 때문에 일종의 TD 으로도 보실 수 있는데요.

TD 공식으로 변형해서 사용하셔도 문제 없이 학습하실 수 있습니다:)

이제 해당 공식을 바탕으로 DQN을 진행하는 코드는 아래와 같습니다.

def optimize_model(memory, policy_net, target_net, optimizer):
	# batch_size만큼 데이터가 메모리에 쌓였을 때만 학습 진행
    if len(memory) < batch_size:
        return

    # transitions = (state, action, reward, next_state, done)
    transitions = memory.sample(batch_size)
    # state, action, reward, next_state, done을 각각 묶어서 list의 형태로 만드는 작업
    batch = list(zip(*transitions))
    
    state_batch = torch.stack(batch[0])
    action_batch = torch.tensor(batch[1]).unsqueeze(1)
    reward_batch = torch.tensor(batch[2])
    next_state_batch = torch.stack(batch[3])
    done_batch = torch.tensor(batch[4], dtype=torch.float32)
    
    # DQN
    q_values = policy_net(state_batch).gather(1, action_batch)
    next_q_values = target_net(next_state_batch).max(1)[0].detach()
    # (1-done_batch)을 통해 에피소드가 끝났는지 아닌지를 판단
    target_q_values = reward_batch + (gamma * next_q_values * (1-done_batch))
    loss = nn.MSELoss()(q_values.squeeze(), target_q_values)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

q_values를 policy_net에서 가져오는 이유는 학습 중인 policy_net과 DQN 공식을 적용한 target_net가 비슷해지도록 학습이 되야 하기 때문입니다.

모델 학습

이제 본격적으로 학습을 진행해보도록 하겠습니다.

한 가지 중요한 점은 Cart Pole 환경이 500점을 달성해도, 에피소드 완료라고 판단하지 않기 때문에 저희가 직접 판단해줘야 합니다.

학습을 진행하는 코드는 아래와 같습니다.

# 초기 세팅
policy_net = DQN(state_dim, action_dim)
target_net = DQN(state_dim, action_dim)

target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

optimizer = optim.Adam(policy_net.parameters(), lr=learning_rate)
memory = ReplayMemory(memory_size)

# epsilon-greedy 방법으로 행동을 선택할 때 필요
# epsilon = epsilon_start

episode_rewards = []
episode_reward = 0

save_dir = "dqn_saved_models"
os.makedirs(save_dir, exist_ok=True)

# 모델 학습
for episode in range(episodes):
    state = torch.tensor(env.reset()[0], dtype=torch.float32)
    if episode % 1000 == 0: 
        print(f"Episode {episode}, Avg Reward: {episode_reward/1000}")
    if episode % 1000 == 0 :
        episode_reward = 0
    total_reward = 0

    # 500 초과인 경우는 done으로 판단
    while total_reward < 501 :
        action = select_action(state, target_net, action_dim)
        next_state, reward, done, _, _ = env.step(action)
        next_state = torch.tensor(next_state, dtype=torch.float32)
        memory.push((state, action, reward, next_state, done))

        state = next_state
        total_reward += reward

        optimize_model(memory, policy_net, target_net, optimizer)
        
        if done :
            break
    # 500점 달성한 모델 저장
    if total_reward >= 500 :
         model_path = os.path.join(save_dir, f"dqn_model_episode_{episode}.pth")
         torch.save(policy_net.state_dict(), model_path)
    
    episode_reward += total_reward
    # epsilon-greedy로 action을 선택할 때는 있어야 함
    # if episode % 10 == 0 :
    #     epsilon = max(epsilon_end, epsilon*epsilon_decay)
    
    if episode % 20 == 0:
        target_net.load_state_dict(policy_net.state_dict())

    episode_rewards.append(total_reward)

리워드 시각화 및 모델 테스트

마지막으로 저희가 학습한 모델이 잘 학습되었는지 확인하기 위해, 리워드를 시각화하고 모델을 테스트해보겠습니다.

먼저 리워드 시각화 하는 코드는 아래와 같습니다.

plt.plot(episode_rewards)
plt.xlabel('Episode')
plt.ylabel('Total Reward')
plt.title('DQN on CartPole')
plt.show()

저는 위와 같은 결과 값이 나왔는데요, 한결 같은 값을 가지는 것은 아니지만 전체적으로 점점 리워드가 상승하는 것을 볼 수 있습니다.

이처럼 여러분의 리워드도 전체적으로 상승하는 형상을 보이고 있다면, 학습이 잘 된 것으로 보실 수 있습니다.

다음은 모델 테스트를 진행해보겠습니다.

저는 모든 모델을 테스트 한 것은 아니도, 500점 이상을 달성한 모델만 따로 저장하여 모델 테스트를 진행해보았습니다.

모델 테스트를 진행하는 코드는 아래와 같습니다.

# 테스트 시, render 활성화 필요
env = gym.make("CartPole-v1", render_mode='human')
# 500 달성한 모델 업로드
model_paths = glob.glob(os.path.join(save_dir, "*.pth"))

model_i = 0
for model_path in model_paths :
    policy_net.load_state_dict(torch.load(model_path))
    policy_net.eval()
    
    avg_reward = 0
    
    # 각 모델 별 10번 진행
    for episode in range(10) :    
        state = torch.tensor(env.reset()[0], dtype=torch.float32)
        total_reward = 0

        while total_reward < 501 :
            with torch.no_grad() :
                action = policy_net(state).argmax().item()

            next_state, reward, done, _, _ = env.step(action)
            next_state = torch.tensor(next_state, dtype=torch.float32)

            state = next_state
            total_reward += reward
            
            if done :
                break

        avg_reward += total_reward
    print(f"model {model_i + 1}, Avg Reward: {avg_reward/10}")
    model_i += 1

특정 모델은 500점 리워드를 달성하지 못하는 경우도 있었지만, 대부분은 500점 이상을 달성하는 것을 볼 수 있었습니다.

모델마다 다른 방식으로 500점을 달성하는데, 한 번 구경해보시는 것도 좋을 것 같아요!

전체 코드

import gymnasium as gym
import torch
import torch.nn as nn
import torch.optim as optim
import random
import numpy as np
from collections import deque
import matplotlib.pyplot as plt
import os
import glob
import torch.nn.functional as F

# 하이퍼 파라미터
gamma = 0.99
learning_rate = 0.0005
batch_size = 100
memory_size = 5000
episodes = 5000
# ϵ-greedy 사용 시, 필요
# epsilon_start = 1.0
# epsilon_end = 0.001
# epsilon_decay = 0.995

class DQN(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(state_dim, 32)
        self.fc2 = nn.Linear(32, 32)
        self.fc3 = nn.Linear(32, action_dim)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x

class ReplayMemory:
    def __init__(self, capacity):
        self.memory = deque(maxlen=capacity)

    def push(self, transition):
        self.memory.append(transition)

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

def select_action(state, target_net, action_dim):
	# ϵ-greedy
	# if random.random() < epsilon:
    #     return random.randint(0, action_dim - 1)
    # else:
    #     return target_net(state).argmax().item()
    
    q_value = target_net(state)
    p = F.softmax(q_value, dim=0).tolist()
    p = np.array(p)
    p /= p.sum()
    action = np.random.choice(action_dim, p=p)
    return action

def optimize_model(memory, policy_net, target_net, optimizer):
    if len(memory) < batch_size:
        return

    transitions = memory.sample(batch_size)
    batch = list(zip(*transitions))
    
    state_batch = torch.stack(batch[0])
    action_batch = torch.tensor(batch[1]).unsqueeze(1)
    reward_batch = torch.tensor(batch[2])
    next_state_batch = torch.stack(batch[3])
    done_batch = torch.tensor(batch[4], dtype=torch.float32)
    
    q_values = policy_net(state_batch).gather(1, action_batch)
    next_q_values = target_net(next_state_batch).max(1)[0].detach()
    # DQN
    target_q_values = reward_batch + (gamma * next_q_values * (1 - done_batch))
    loss = nn.MSELoss()(q_values.squeeze(), target_q_values)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()


env = gym.make("CartPole-v1")
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n

policy_net = DQN(state_dim, action_dim)
target_net = DQN(state_dim, action_dim)

target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

optimizer = optim.Adam(policy_net.parameters(), lr=learning_rate)
memory = ReplayMemory(memory_size)

# epsilon = epsilon_start

episode_rewards = []
episode_reward = 0
save_dir = "dqn_saved_models"
os.makedirs(save_dir, exist_ok=True)

for episode in range(episodes):
    state = torch.tensor(env.reset()[0], dtype=torch.float32)
    if episode % 100 == 0: 
        print(f"Episode {episode}, Avg Reward: {episode_reward/100}")
    if episode % 100 == 0 :
        episode_reward = 0
    total_reward = 0

    # 500 초과인 경우는 done으로 판단
    while total_reward < 501 :
        action = select_action(state, target_net, action_dim)

        next_state, reward, done, _, _ = env.step(action)
        next_state = torch.tensor(next_state, dtype=torch.float32)

        memory.push((state, action, reward, next_state, done))

        state = next_state
        total_reward += reward

        optimize_model(memory, policy_net, target_net, optimizer)
        
        if done :
            break
    # 500점 달성한 모델 저장
    if total_reward >= 500 :
        model_path = os.path.join(save_dir, f"dqn_model_episode_{episode}.pth")
        torch.save(policy_net.state_dict(), model_path)
    
    episode_reward += total_reward
    
    # ϵ-greedy 사용 시, 필요
  	# if episode % 10 == 0 :
    #     epsilon = max(epsilon_end, epsilon*epsilon_decay)
    
    if episode % 20 == 0:
        target_net.load_state_dict(policy_net.state_dict())

    episode_rewards.append(total_reward)

plt.plot(episode_rewards)
plt.xlabel('Episode')
plt.ylabel('Total Reward')
plt.title('DQN on CartPole')
plt.show()

# 테스트 진행
env = gym.make("CartPole-v1", render_mode='human')
# 500 달성한 모델 업로드
model_paths = glob.glob(os.path.join(save_dir, "*.pth"))

model_i = 0
for model_path in model_paths :
    policy_net.load_state_dict(torch.load(model_path))
    policy_net.eval()
    
    avg_reward = 0
    
    # 각 모델 별 10번 진행
    for episode in range(10) :    
        state = torch.tensor(env.reset()[0], dtype=torch.float32)
        total_reward = 0

        while total_reward < 501 :
            with torch.no_grad() :
                action = policy_net(state).argmax().item()

            next_state, reward, done, _, _ = env.step(action)
            next_state = torch.tensor(next_state, dtype=torch.float32)

            state = next_state
            total_reward += reward
            
            if done :
                break

        avg_reward += total_reward
    print(f"model {model_i + 1}, Avg Reward: {avg_reward/10}")
    model_i += 1

딥러닝+강화학습으로 진행되기 때문에 모델 학습이나 이런 부분이 진행하면서 많이 어려웠습니다.

저도 이거 풀면서 딥러닝에 대한 지식이 부족하다는 것을 깨닫고 요즘은 딥러닝을 공부하고 있는데, 쉽지 않네요ㅠㅠ

DQN이랑 비슷한 DDQN으로 cart pole 문제를 푸는 방법은 아래 링크를 참고해주세요.

https://yhj9855.com/entry/RL-gymnasium-cart-pole-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-DDQN

[RL] gymnasium cart pole 강화 학습 - DDQN

안녕하세요! 오늘은 기존에 작성한 cart pole 문제를 DDQN(Double Deep Q-Network) 으로 진행하는 방법에 대해 포스팅 하겠습니다.DDQN (Double Deep Q-Network) 이란?강화 학습의 한 방법으로, DQN과 비슷하지만 학

yhj9855.com

코드에 대해 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

[RL] gymnasium cart pole 강화 학습 - DDQN (0)	2025.03.06
[RL] gymnasium cart pole 강화 학습 - 1 (0)	2025.02.18
[RL] gymnasium frozen lake 강화 학습 - SARSA (1)	2025.02.11
[RL] gymnasium frozen lake 강화 학습 - 2 (2)	2025.02.03

[RL] gymnasium cart pole 강화 학습 - 1

Japduck_Coding 2025. 2. 18. 14:53

2025. 2. 18. 14:53

728x90

SMALL

728x90

안녕하세요! 오늘은 gymnasium에서 제공하는 cart pole 문제 설명에 대한 포스팅 진행하겠습니다.

저는 cart pole 문제를 DQN과 DDQN 두 가지 방법으로 풀어보았는데요!

각각 전체 코드는 포스팅 가장 아래에 있습니다.

cart pole 규칙

우선 gymnasium에서 제공하는 cart pole 문제는 아래 링크에서 자세하게 보실 수 있습니다.

https://gymnasium.farama.org/environments/classic_control/cart_pole/

Gymnasium Documentation

A standard API for reinforcement learning and a diverse set of reference environments (formerly Gym)

gymnasium.farama.org

위의 사진처럼 생긴 막대를 지속적으로 세우는 것이 cart pole의 가장 큰 목표 입니다.

cart pole의 자세한 규칙은 아래와 같습니다.

이동 방향은 좌, 우만 존재
현재 막대의 상태는 막대 위치, 속도, 각도, 각속도 총 4가지로 표현
하나의 step이 에피소드 종료되지 않으면 보상 1을 획득
각도가 좌우 12 º 이상 벗어나거나, 막대가 화면을 벗어나거나, 보상 500(혹은 200) 달성하면 에피소드 종료

저희는 위의 규칙을 잘 생각하여, 막대가 특정 각도를 넘어가거나 화면에 벗어나지 않게 500 에피소드 이상 버티는 것을 학습해주어야 합니다.

필요한 라이브러리 설치

frozen lake는 gymnasium에서 제공하고 있기 때문에 가장 먼저 gymnasium을 설치해주시면 됩니다!

그리고 render 모드 활성화를 진행하기 위해 gymnasium[toy-text] 설치도 같이 진행해주세요.

두 패키지 모두 pip install로 설치해주시면 금방 설치할 수 있습니다.

import gymnasium as gym
from collections import defaultdict
import numpy as np

cart pole 환경 세팅

필요한 라이브러리를 설치한 후에는 cart pole 환경을 세팅해봅니다.

우선 환경 세팅을 하는 코드는 아래와 같습니다.

env = gym.make("CartPole-v1")

cart pole은 학습을 진행해주지 않으면 바로 에피소드가 종료가 되기 때문에 테스트를 진행해보기가 어렵습니다ㅠㅠ

어떤 식으로 진행되는지 궁금하신 분들은 전체 코드 복사 후 실행해보시면, cart pole이 어떻게 진행되는지 아실 수 있습니다!

여기까지가 cart pole 환경 세팅이었습니다.

cart pole 환경 세팅은 그렇게 어렵지 않아서, 금방 하실 수 있어요!

이번 포스팅에서는 DQN과 DDQN에 관한 전체 코드만 업로드하고, 자세한 포스팅은 추후에 진행하도록 하겠습니다.

두 가지 모두 500 에피소드에 달성한 모델이 다수 존재했습니다.

[DQN 전체 코드]

import gymnasium as gym
import torch
import torch.nn as nn
import torch.optim as optim
import random
import numpy as np
from collections import deque
import matplotlib.pyplot as plt
import os
import glob
import torch.nn.functional as F

# 하이퍼 파라미터
gamma = 0.99
learning_rate = 0.001
batch_size = 100
memory_size = 5000
# epsilon에 의해 행동을 선택할 때는 해당 부분 필요
# epsilon_start = 1.0
# epsilon_end = 0.001
# epsilon_decay = 0.995
episodes = 5000

class DQN(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(state_dim, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, action_dim)

    def forward(self, x):
    	x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x

class ReplayMemory:
    def __init__(self, max_len):
        self.memory = deque(maxlen=max_len)

    def push(self, transition):
        self.memory.append(transition)

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

def select_action(state, target_net, action_dim):
	# epsilon-greedy를 바탕으로 행동을 선택하는 과정
    # if random.random() < epsilon:
    #     return random.randint(0, action_dim - 1)
    # else:
    #     return target_net(state).argmax().item()
    
    # 행동 값을 확률로 변경하여, 확률에 따라 행동을 선택하는 과정
    q_value = target_net(state)
    p = F.softmax(q_value, dim=0).tolist()
    p = np.array(p)
    p /= p.sum()
    action = np.random.choice(action_dim, p=p)
    return action

def optimize_model(memory, policy_net, target_net, optimizer):
    if len(memory) < batch_size:
        return

    transitions = memory.sample(batch_size)
    batch = list(zip(*transitions))
    
    state_batch = torch.stack(batch[0])
    action_batch = torch.tensor(batch[1]).unsqueeze(1)
    reward_batch = torch.tensor(batch[2])
    next_state_batch = torch.stack(batch[3])
    done_batch = torch.tensor(batch[4], dtype=torch.float32)
    
    # DQN
    q_values = policy_net(state_batch).gather(1, action_batch)
    next_q_values = target_net(next_state_batch).max(1)[0].detach()
    target_q_values = reward_batch + (gamma * next_q_values * (1 - done_batch))
    loss = nn.MSELoss()(q_values.squeeze(), target_q_values)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()


env = gym.make("CartPole-v1")
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n

policy_net = DQN(state_dim, action_dim)
target_net = DQN(state_dim, action_dim)

target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

optimizer = optim.Adam(policy_net.parameters(), lr=learning_rate)
memory = ReplayMemory(memory_size)

# epsilon-greedy 방법으로 행동을 선택할 때 필요
# epsilon = epsilon_start

episode_rewards = []
episode_reward = 0

save_dir = "dqn_saved_models"
os.makedirs(save_dir, exist_ok=True)

# 500을 10회 진행하면 성공이라고 판단하여, 종료를 하기 위한 장치로 잠깐 쓰인 것
# count = 0

for episode in range(episodes):
    # if count > 10 :
    #     break
    state = torch.tensor(env.reset()[0], dtype=torch.float32)
    if episode % 1000 == 0: 
        print(f"Episode {episode}, Avg Reward: {episode_reward/1000}")
    if episode % 1000 == 0 :
        episode_reward = 0
    total_reward = 0

    # 500 초과인 경우는 done으로 판단
    while total_reward < 501 :
        action = select_action(state, target_net, action_dim)
        next_state, reward, done, _, _ = env.step(action)
        next_state = torch.tensor(next_state, dtype=torch.float32)
        memory.push((state, action, reward, next_state, done))

        state = next_state
        total_reward += reward

        optimize_model(memory, policy_net, target_net, optimizer)
        
        if done :
            break
    # 500점 달성한 모델 저장
    if total_reward >= 500 :
    #    count += 1
         model_path = os.path.join(save_dir, f"dqn_model_episode_{episode}.pth")
         torch.save(policy_net.state_dict(), model_path)
    
    episode_reward += total_reward
    # epsilon-greedy로 action을 선택할 때는 있어야 함
    # if episode % 10 == 0 :
    #     epsilon = max(epsilon_end, epsilon*epsilon_decay)
    
    if episode % 20 == 0:
        target_net.load_state_dict(policy_net.state_dict())

    episode_rewards.append(total_reward)

plt.plot(episode_rewards)
plt.xlabel('Episode')
plt.ylabel('Total Reward')
plt.title('DQN on CartPole')
plt.show()

# 테스트 진행 - render를 켜줘야 확인이 가능
env = gym.make("CartPole-v1", render_mode='human')
# 500 달성한 모델 업로드
model_paths = glob.glob(os.path.join(save_dir, "*.pth"))

model_i = 0
for model_path in model_paths :
    policy_net.load_state_dict(torch.load(model_path))
    policy_net.eval()
    
    avg_reward = 0
    
    # 각 모델 별 10번 진행
    for episode in range(10) :    
        state = torch.tensor(env.reset()[0], dtype=torch.float32)
        total_reward = 0

        while total_reward < 501 :
            with torch.no_grad() :
                action = policy_net(state).argmax().item()

            next_state, reward, done, _, _ = env.step(action)
            next_state = torch.tensor(next_state, dtype=torch.float32)

            state = next_state
            total_reward += reward
            
            if done :
                break

        avg_reward += total_reward
    print(f"model {model_i + 1}, Avg Reward: {avg_reward/10}")
    model_i += 1

[DDQN 전체 코드]

import gymnasium as gym
import torch
import torch.nn as nn
import torch.optim as optim
import random
import numpy as np
from collections import deque
import matplotlib.pyplot as plt
import os
import glob
import torch.nn.functional as F

# 하이퍼 파라미터
gamma = 0.99
learning_rate = 0.001
batch_size = 100
memory_size = 5000
# epsilon에 의해 행동을 선택할 때는 해당 부분 필요
# epsilon_start = 1.0
# epsilon_end = 0.001
# epsilon_decay = 0.995
episodes = 5000

class DQN(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(state_dim, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, action_dim)

    def forward(self, x):
    	x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x

class ReplayMemory:
    def __init__(self, max_len):
        self.memory = deque(maxlen=max_len)

    def push(self, transition):
        self.memory.append(transition)

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

def select_action(state, target_net, action_dim):
	# epsilon-greedy를 바탕으로 행동을 선택하는 과정
    # if random.random() < epsilon:
    #     return random.randint(0, action_dim - 1)
    # else:
    #     return target_net(state).argmax().item()
    
    # 행동 값을 확률로 변경하여, 확률에 따라 행동을 선택하는 과정
    q_value = target_net(state)
    p = F.softmax(q_value, dim=0).tolist()
    p = np.array(p)
    p /= p.sum()
    action = np.random.choice(action_dim, p=p)
    return action

def optimize_model(memory, policy_net, target_net, optimizer):
    if len(memory) < batch_size:
        return

    transitions = memory.sample(batch_size)
    batch = list(zip(*transitions))
    
    state_batch = torch.stack(batch[0])
    action_batch = torch.tensor(batch[1]).unsqueeze(1)
    reward_batch = torch.tensor(batch[2])
    next_state_batch = torch.stack(batch[3])
    done_batch = torch.tensor(batch[4], dtype=torch.float32)
    
    # DDQN
    q_values = policy_net(state_batch).gather(1, action_batch)
    next_action = policy_net(next_state_batch).argmax(1).unsqueeze(1)
    next_q_values = target_net(next_state_batch).gather(1, next_action).squeeze().detach()
    target_q_values = reward_batch + (gamma * next_q_values * (1 - done_batch))
    loss = nn.MSELoss()(q_values.squeeze(), target_q_values)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()


env = gym.make("CartPole-v1")
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n

policy_net = DQN(state_dim, action_dim)
target_net = DQN(state_dim, action_dim)

target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

optimizer = optim.Adam(policy_net.parameters(), lr=learning_rate)
memory = ReplayMemory(memory_size)

# epsilon-greedy 방법으로 행동을 선택할 때 필요
# epsilon = epsilon_start

episode_rewards = []
episode_reward = 0

save_dir = "dqn_saved_models"
os.makedirs(save_dir, exist_ok=True)

# 500을 10회 진행하면 성공이라고 판단하여, 종료를 하기 위한 장치로 잠깐 쓰인 것
# count = 0

for episode in range(episodes):
    # if count > 10 :
    #     break
    state = torch.tensor(env.reset()[0], dtype=torch.float32)
    if episode % 1000 == 0: 
        print(f"Episode {episode}, Avg Reward: {episode_reward/1000}")
    if episode % 1000 == 0 :
        episode_reward = 0
    total_reward = 0

    # 500 초과인 경우는 done으로 판단
    while total_reward < 501 :
        action = select_action(state, target_net, action_dim)
        next_state, reward, done, _, _ = env.step(action)
        next_state = torch.tensor(next_state, dtype=torch.float32)
        memory.push((state, action, reward, next_state, done))

        state = next_state
        total_reward += reward

        optimize_model(memory, policy_net, target_net, optimizer)
        
        if done :
            break
    # 500점 달성한 모델 저장
    if total_reward >= 500 :
    #    count += 1
         model_path = os.path.join(save_dir, f"dqn_model_episode_{episode}.pth")
         torch.save(policy_net.state_dict(), model_path)
    
    episode_reward += total_reward
    # epsilon-greedy로 action을 선택할 때는 있어야 함
    # if episode % 10 == 0 :
    #     epsilon = max(epsilon_end, epsilon*epsilon_decay)
    
    if episode % 20 == 0:
        target_net.load_state_dict(policy_net.state_dict())

    episode_rewards.append(total_reward)

plt.plot(episode_rewards)
plt.xlabel('Episode')
plt.ylabel('Total Reward')
plt.title('DDQN on CartPole')
plt.show()

# 테스트 진행 - render를 켜줘야 확인이 가능
env = gym.make("CartPole-v1", render_mode='human')
# 500 달성한 모델 업로드
model_paths = glob.glob(os.path.join(save_dir, "*.pth"))

model_i = 0
for model_path in model_paths :
    policy_net.load_state_dict(torch.load(model_path))
    policy_net.eval()
    
    avg_reward = 0
    
    # 각 모델 별 10번 진행
    for episode in range(10) :    
        state = torch.tensor(env.reset()[0], dtype=torch.float32)
        total_reward = 0

        while total_reward < 501 :
            with torch.no_grad() :
                action = policy_net(state).argmax().item()

            next_state, reward, done, _, _ = env.step(action)
            next_state = torch.tensor(next_state, dtype=torch.float32)

            state = next_state
            total_reward += reward
            
            if done :
                break

        avg_reward += total_reward
    print(f"model {model_i + 1}, Avg Reward: {avg_reward/10}")
    model_i += 1

결과물

코드에 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

[RL] gymnasium cart pole 강화 학습 - DDQN (0)	2025.03.06
[RL] gymnasium cart pole 강화 학습 - DQN (0)	2025.02.28
[RL] gymnasium frozen lake 강화 학습 - SARSA (1)	2025.02.11
[RL] gymnasium frozen lake 강화 학습 - 2 (2)	2025.02.03

[RL] gymnasium frozen lake 강화 학습 - SARSA

Japduck_Coding 2025. 2. 11. 15:19

2025. 2. 11. 15:19

728x90

SMALL

728x90

안녕하세요! 오늘은 기존 작성한 frozen lake 문제를 SARSA로 진행하는 방법에 대해 포스팅 하겠습니다.

SARSA 란?

강화 학습의 한 방법으로, Q-learning과 비슷하지만 행동 선택이 다른 방식입니다.

Q-learning이 미래의 최적 행동을 가정하고 학습한다면, SARSA는 실제로 선택한 행동을 기반으로 학습합니다.

즉 (현재 State, 현재 Action, 현재 Reward, 다음 State, 최적의 행동)이 Q-learning이었다면,

(현재 State, 현재 Action, 현재 Reward, 다음 State, 다음 Action)이 SARSA가 되고, 각각의 앞글자를 따와 SARSA라고 이름을 붙이게 된 것입니다.

frozen lake를 Q-learning으로 진행하는 방법은 아래 링크에서 확인해주세요.

https://yhj9855.com/entry/RL-gymnasium-frozen-lake-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-2

[RL] gymnasium frozen lake 강화 학습 - 2

yhj9855.com

frozen lake에 관한 전체적인 설명은 아래 포스팅에서 진행하고 있으니, 먼저 확인해주세요!

https://yhj9855.com/entry/RL-gymnasium-frozen-lake-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-1

[RL] gymnasium frozen lake 강화 학습 - 1

안녕하세요! 오늘은 gymnasium에서 제공하는 frozen lake 문제에 대한 설명에 대해 포스팅 하겠습니다. 강화 학습이란?행동을 통해 얻는 보상을 기반으로 학습하는 AI의 한 분야입니다.흔히 Reinforcemen

yhj9855.com

그럼 본격적으로 SARSA로 frozen lake 문제를 풀어보도록 하겠습니다.

SARSA로 frozen lake를 풀 때, 크게 두 가지를 생각하시면 됩니다.

Q 값을 바탕으로 행동을 선택
선택한 행동을 SARSA 공식을 사용해서 Q 값 업데이트

위의 두 가지를 하나씩 자세히 살펴보겠습니다.

Q 값을 바탕으로 행동을 선택

해당 부분은 현재까지 업데이트 된 Q 값을 바탕으로 행동을 선택하는 것입니다.

기본적으로는 Q 값이 가장 높은 행동을 선택하면 됩니다.

하지만 여기에는 한 가지 문제점이 있습니다.

Q 값이 제대로 업데이트가 될 때까지 충분한 탐험을 진행하지 못했을 경우, 제대로 된 행동을 추출할 수 없다는 것입니다.

예를 들어, 초반에는 Q 값이 모두 0이기 때문에 (0, 0)에서 왼쪽으로 가는 행동만 선택하기 때문에 게임을 진행할 수가 없습니다.

저희는 이 문제를 해결하기 위해, ϵ-greedy 방법을 사용할 수 있습니다.

ϵ-greedy란?

탐험과 이용의 균형을 맞추기 위한 행동 선택 방법으로, 아래 공식을 따릅니다.

ϵ-greedy를 활용하여 행동을 선택하는 코드는 아래와 같습니다.

# 초기 값은 보통 1로 설정
epsilon = 1.0
train = True

# ϵ-greedy를 활용한 행동 선택
def select_action(state) :
	# 훈련을 할 경우에는 ϵ-greedy 방법을 사용
   	# 테스트를 진행할 때는 온전히 Q 값만 사용
   	# np.random.rand()를 넣어, 후반에도 종종 탐험을 할 수 있도록 함
    if np.random.rand() < epsilon and train :
        action = np.random.choice([0, 1, 2, 3])
    else :
        action = np.argmax(Q[state])
    return action

선택한 행동을 SARSA 공식을 사용해서 Q 값 업데이트

해당 부분은 위에서 선택한 행동을 환경에서 실행해보고, 그 결과 값을 SARSA 공식에 맞게 Q 값을 업데이트 하는 것입니다.

코드로 들어가기 전에 먼저 Q 테이블을 업데이트하는 공식을 먼저 살펴보겠습니다.

해당 수식은 Q(s, a)를 업데이트 하는데, 특정 학습률 α에 있어 (1- α)만큼 현재의 Q 값과 α만큼의 (보상값 r + 할인율 γ * 다음 state와 action의 Q값 Q(s', a'))를 반영한다는 의미입니다.

Q-learning을 배우신 분들은 아시겠지만, Q-learning에서의 maxQ값이 특정 행동 a'의 Q 값인 Q(s', a')로 바뀐 것을 알 수 있습니다.

학습률 α

값이 높을수록 다음 행동 값 즉, 새로운 정보를 더 많이 반영한다는 것이고, 낮을수록 현재의 Q 값 즉, 기존의 경험을 더 많이 유지한다는 의미입니다.

할인율 γ

미래 보상의 중요도를 나타내는 지표로, 보통은 미래의 보상에 너무 의존하지 않도록 1보다 약간 작은 수로 지정하는 것이 보통입니다.

Q(s', a')

실제로 선택한 다음 행동 a'에 대한 Q 값으로, 위의 행동 선택을 기반하여 다음 state에서 실제 action을 고른 값입니다.

이렇게 실제 행동을 기반으로 Q 값을 업데이트 하기 때문에, 안정적이지만 그만큼 느릴 수 있습니다.

하지만, frozen lake는 공간이 작은 문제라서 Q-learning과 크게 결과 차이는 없으실 거예요:)

해당 공식을 바탕으로 SARSA를 진행하는 코드는 아래와 같습니다.

# 학습을 진행할 때는 render 모드 비활성화
env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery)
env.reset()
# 환경의 행동 범위 : 여기서는 상, 하, 좌, 우 총 4개
action_size = env.action_space.n

# defaultdict은 키가 없을 때 자동으로 기본값을 생성하기 때문에 강화 학습에서 많이 사용
Q = defaultdict(lambda: np.zeros(action_size))

alpha = 0.1
gamma = 0.99
# 총 학습을 진행할 에피소드 수
max_episode = 10000

def learn() :
    reward_list = []
    for i in range(1, max_episode+1) :
        # 100번째 마다 학습이 진행되고 있음을 출력
        if i % 100 == 0 :
            # 해당 에피소드까지 진행된 모든 보상의 평균을 구함
            avg_reward = sum(reward_list)/100
            print("\rEpisode {}/{} || average reward {}".format(i, max_episode, avg_reward), end="")
            reward_list = []
        # 에피소드를 처음 시작할 때 reset
        state, _ = env.reset()
        done = False
        all_reward = 0
        # 에피소드가 종료될 때까지 반복
        while not done :
        	# Q 테이블을 바탕으로 action을 고르는 함수
            action = select_action(state)
            # state, reward, done 외 사용하지 않기 때문에 _ 처리
            new_state, reward, done, _, _ = env.step(action)
            next_action = select_action(new_state)
            # SARSA
            Q[state][action] = (1-alpha)*Q[state][action] + alpha*(reward + gamma*Q[new_state][next_action])
            all_reward += reward
            state = new_state
        # 50번째 에피소드 마다 ϵ 값을 줄여줌
        if i % 50 == 0 :
            epsilon *= 0.99
        reward_list.append(all_reward)

위의 두 가지 과정을 합치면 SARSA로 frozen lake를 풀 수 있는 코드가 완성됩니다!

학습 후 테스트를 진행하고 싶으신 경우에는 render를 킨 환경을 다시 세팅해서 해주시면 됩니다.

전체 코드

행동 선택, 학습, 테스트 과정을 모두 포함한 전체 코드는 아래와 같습니다.

import gymnasium as gym
from collections import defaultdict
import numpy as np

# 미끄러짐 옵션 True/False 선택 가능
is_slippery = True
# 8x8 중에 선택 가능
map_size = '4x4'
env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery)
env.reset()
action_size = env.action_space.n

Q = defaultdict(lambda: np.zeros(action_size))

alpha = 0.1
gamma = 0.99
epsilon = 1.0
train = True
max_episode = 100000


def select_action(state) :
    if np.random.rand() < epsilon and train :
        action = np.random.choice([0, 1, 2, 3])
    else :
        action = np.argmax(Q[state])
    return action

def learn() :
    global epsilon
    reward_list = []
    for i in range(1, max_episode+1) :
        # 100번째 마다 학습이 진행되고 있음을 출력
        if i % 100 == 0 :
            # 해당 에피소드까지 진행된 모든 보상의 평균을 구함
            avg_reward = sum(reward_list)/100
            print("\rEpisode {}/{} || average reward {}".format(i, max_episode, avg_reward), end="")
            reward_list = []
        state, _ = env.reset()
        done = False
        all_reward = 0
        while not done :
            action = select_action(state)
            new_state, reward, done, _, _ = env.step(action)
            next_action = select_action(new_state)
            # SARSA
            Q[state][action] = (1-alpha)*Q[state][action] + alpha*(reward + gamma*Q[new_state][next_action])
            all_reward += reward
            state = new_state
        if i % 50 == 0 :
            epsilon *= 0.99
        reward_list.append(all_reward)

# 학습한 Q를 바탕으로 frozen lake 테스트
def testing_after_learning():
	# render를 켜야 제대로 학습이 되었는지 확인할 수 있음
    env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery, render_mode='human')
    total_test_episode = 10
    rewards = []
    for episode in range(total_test_episode):
        state, _ = env.reset()
        episode_reward = 0
        while True: 
            action = select_action(state)
            new_state, reward, done, _, _ = env.step(action)
            episode_reward += reward
            if done:
                rewards.append(episode_reward)
                break
            state = new_state
    print("")
    print("avg: " + str(sum(rewards) / total_test_episode))

if __name__ == "__main__" :
    learn()
    testing_after_learning()

테스트를 진행하면서 is_slippery 옵션을 껐을 경우에는 1.0 보상을 받으면 성공이고, is_slippery 옵션을 켰을 경우에는 70% 이상 1.0 보상을 받으면 성공이라고 보실 수 있습니다.

추가로 is_slippery 옵션을 켰을 경우에는 학습을 많이 진행해야 어느 정도 수렴하시는 걸 보실 수 있습니다!

아무래도 model-free로 진행을 하니까 많이 느리더라구요ㅠㅠ

model-based

model-free가 아닌 어느 정도 model-based로 빠르게 학습을 하고 싶으신 경우 아래 상황을 고려할 수 있습니다.

행동 한 번을 진행할 때마다 reward에 - 진행
→ RL이 최단 경로로 진행하려는 경향을 학습할 수 있음
구멍에 빠졌을 경우, reward에 크게 - 진행
→ 구멍에 빠지지 않는 쪽으로 빠르게 학습할 수 있음
도착했을 경우, reward를 크게 추가
→ 도착 지점에 확실히 도착하기 위해 큰 reward를 지급

그 외에도 벽에 부딪히거나 하는 등 맵을 알고 있기 때문에 환경에 맞게 reward를 추가로 주거나 마이너스를 진행하여, model-based 모델을 만들 수도 있습니다.

그래도 강화 학습을 제대로 알기 위해서는 model-free로 진행해보는 것을 추천드립니다!

코드에 대해 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

[RL] gymnasium cart pole 강화 학습 - DQN (0)	2025.02.28
[RL] gymnasium cart pole 강화 학습 - 1 (0)	2025.02.18
[RL] gymnasium frozen lake 강화 학습 - 2 (2)	2025.02.03
[RL] gymnasium frozen lake 강화 학습 - 1 (1)	2025.01.22

[RL] gymnasium frozen lake 강화 학습 - 2

Japduck_Coding 2025. 2. 3. 14:44

2025. 2. 3. 14:44

728x90

SMALL

728x90

안녕하세요! 오늘은 기존에 작성한 frozen lake 문제를 Q-learning으로 진행하는 방법에 대해 포스팅 하겠습니다.

Q-learning이란?

강화 학습의 한 방법으로, Q라는 테이블을 이용하는 것입니다.

Q 테이블 내 값은 특정 상황에서 어떤 행동을 했을 때의 보상 값의 큰 정도를 나타내는 것으로, 학습이 진행되면서 해당 값들을 업데이트 하여 최적의 행동을 찾는 것입니다.

frozen lake에 관한 전체적인 설명은 아래 포스팅에서 진행하고 있으니, 먼저 확인해주세요!

https://yhj9855.com/entry/RL-gymnasium-frozen-lake-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-1

[RL] gymnasium frozen lake 강화 학습 - 1

yhj9855.com

그럼 본격적으로 Q-learing으로 frozen lake 문제를 풀어보도록 하겠습니다.

Q-learning으로 frozen lake를 풀 때, 크게 두 가지를 생각하시면 됩니다.

Q 값을 바탕으로 행동을 선택
선택한 행동을 Q-learning 공식을 사용해서 Q 값 업데이트

위의 두 가지를 하나씩 자세히 살펴보겠습니다.

Q 값을 바탕으로 행동을 선택

해당 부분은 현재까지 업데이트 된 Q 값을 바탕으로 행동을 선택하는 것입니다.

기본적으로는 Q 값이 가장 높은 행동을 선택하면 됩니다.

하지만 여기에는 한 가지 문제점이 있습니다.

Q 값이 제대로 업데이트가 될 때까지 충분한 탐험을 진행하지 못했을 경우, 제대로 된 행동을 추출할 수 없다는 것입니다.

예를 들어, 초반에는 Q 값이 모두 0이기 때문에 (0, 0)에서 왼쪽으로 가는 행동만 선택하기 때문에 게임을 진행할 수가 없습니다.

저희는 이 문제를 해결하기 위해, ϵ-greedy 방법을 사용할 수 있습니다.

ϵ-greedy란?

탐험과 이용의 균형을 맞추기 위한 행동 선택 방법으로, 아래 공식을 따릅니다.

ϵ-greedy를 활용하여 행동을 선택하는 코드는 아래와 같습니다.

# 초기 값은 보통 1로 설정
epsilon = 1.0
train = True

# ϵ-greedy를 활용한 행동 선택
def select_action(state) :
	# 훈련을 할 경우에는 ϵ-greedy 방법을 사용
   	# 테스트를 진행할 때는 온전히 Q 값만 사용
   	# np.random.rand()를 넣어, 후반에도 종종 탐험을 할 수 있도록 함
    if np.random.rand() < epsilon and train :
        action = np.random.choice([0, 1, 2, 3])
    else :
        action = np.argmax(Q[state])
    return action

선택한 행동을 Q-learning 공식을 사용해서 Q 값 업데이트

해당 부분은 위에서 선택한 행동을 환경에서 실행해보고, 그 결과 값을 Q-learning 공식에 맞게 Q 값을 업데이트 하는 것입니다.

코드로 들어가기 전에 먼저 Q 테이블을 업데이트하는 공식을 먼저 살펴보겠습니다.

해당 수식은 Q(s, a)를 업데이트 하는데, 특정 학습률 α에 있어 (1- α)만큼 현재의 Q 값과 α만큼의 (보상값 r + 할인율 γ * 다음 state의 가장 높은 Q값 maxQ(s', a'))를 반영한다는 의미입니다.

학습률 α

할인율 γ

미래 보상의 중요도를 나타내는 지표로, 보통은 미래의 보상에 너무 의존하지 않도록 1보다 약간 작은 수로 지정하는 것이 보통입니다.

maxQ(s', a')

다음 상태인 s'에서 가능한 모든 행동 중 가장 높은 Q 값을 의미하며, s'은 현재 state에서 위에서 고른 행동을 실행한 결과 값이라고 보시면 됩니다.

이제 해당 공식을 바탕으로 Q-learning을 하는 코드는 아래와 같습니다.

# 학습을 진행할 때는 render 모드 비활성화
env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery)
env.reset()
# 환경의 행동 범위 : 여기서는 상, 하, 좌, 우 총 4개
action_size = env.action_space.n

# defaultdict은 키가 없을 때 자동으로 기본값을 생성하기 때문에 강화 학습에서 많이 사용
Q = defaultdict(lambda: np.zeros(action_size))

alpha = 0.1
gamma = 0.99
# 총 학습을 진행할 에피소드 수
max_episode = 10000

def learn() :
    reward_list = []
    for i in range(1, max_episode+1) :
        # 100번째 마다 학습이 진행되고 있음을 출력
        if i % 100 == 0 :
            # 해당 에피소드까지 진행된 모든 보상의 평균을 구함
            avg_reward = sum(reward_list)/100
            print("\rEpisode {}/{} || average reward {}".format(i, max_episode, avg_reward), end="")
            reward_list = []
        # 에피소드를 처음 시작할 때 reset
        state, _ = env.reset()
        done = False
        all_reward = 0
        # 에피소드가 종료될 때까지 반복
        while not done :
        	# Q 테이블을 바탕으로 action을 고르는 함수
            action = select_action(state)
            # state, reward, done 외 사용하지 않기 때문에 _ 처리
            new_state, reward, done, _, _ = env.step(action)
            # Q-learning 공식
            Q[state][action] = (1-alpha)*Q[state][action] + alpha*(reward + gamma*np.max(Q[new_state]))
            all_reward += reward
            state = new_state
        # 50번째 에피소드 마다 ϵ 값을 줄여줌
        if i % 50 == 0 :
            epsilon *= 0.99
        reward_list.append(all_reward)

위의 두 가지 과정을 합치면 Q-learing으로 frozen lake를 풀 수 있는 코드가 완성됩니다!

학습 후 테스트를 진행하고 싶으신 경우에는 render를 킨 환경을 다시 세팅해서 해주시면 됩니다.

전체 코드

행동 선택, 학습, 테스트 과정을 모두 포함한 전체 코드는 아래와 같습니다.

import gymnasium as gym
from collections import defaultdict
import numpy as np

# 미끄러짐 옵션 True/False 선택 가능
is_slippery = True
# 8x8 중에 선택 가능
map_size = '4x4'
env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery)
env.reset()
action_size = env.action_space.n

Q = defaultdict(lambda: np.zeros(action_size))

alpha = 0.1
gamma = 0.99
epsilon = 1.0
train = True
max_episode = 100000


def select_action(state) :
    if np.random.rand() < epsilon and train :
        action = np.random.choice([0, 1, 2, 3])
    else :
        action = np.argmax(Q[state])
    return action

def learn() :
    global epsilon
    reward_list = []
    for i in range(1, max_episode+1) :
        # 100번째 마다 학습이 진행되고 있음을 출력
        if i % 100 == 0 :
            # 해당 에피소드까지 진행된 모든 보상의 평균을 구함
            avg_reward = sum(reward_list)/100
            print("\rEpisode {}/{} || average reward {}".format(i, max_episode, avg_reward), end="")
            reward_list = []
        state, _ = env.reset()
        done = False
        all_reward = 0
        while not done :
            action = select_action(state)
            new_state, reward, done, _, _ = env.step(action)
            Q[state][action] = (1-alpha)*Q[state][action] + alpha*(reward + gamma*np.max(Q[new_state]))
            all_reward += reward
            state = new_state
        if i % 50 == 0 :
            epsilon *= 0.99
        reward_list.append(all_reward)

# 학습한 Q를 바탕으로 frozen lake 테스트
def testing_after_learning():
	# render를 켜야 제대로 학습이 되었는지 확인할 수 있음
    env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery, render_mode='human')
    total_test_episode = 10
    rewards = []
    for episode in range(total_test_episode):
        state, _ = env.reset()
        episode_reward = 0
        while True: 
            action = select_action(state)
            new_state, reward, done, _, _ = env.step(action)
            episode_reward += reward
            if done:
                rewards.append(episode_reward)
                break
            state = new_state
    print("")
    print("avg: " + str(sum(rewards) / total_test_episode))

if __name__ == "__main__" :
    learn()
    testing_after_learning()

추가로 is_slippery 옵션을 켰을 경우에는 학습을 많이 진행해야 어느 정도 수렴하시는 걸 보실 수 있습니다!

아무래도 model-free로 진행을 하니까 많이 느리더라구요ㅠㅠ

model-based

model-free가 아닌 어느 정도 model-based로 빠르게 학습을 하고 싶으신 경우 아래 상황을 고려할 수 있습니다.

행동 한 번을 진행할 때마다 reward에 - 진행
→ RL이 최단 경로로 진행하려는 경향을 학습할 수 있음
구멍에 빠졌을 경우, reward에 크게 - 진행
→ 구멍에 빠지지 않는 쪽으로 빠르게 학습할 수 있음
도착했을 경우, reward를 크게 추가
→ 도착 지점에 확실히 도착하기 위해 큰 reward를 지급

그래도 강화 학습을 제대로 알기 위해서는 model-free로 진행해보는 것을 추천드립니다!

Q-learning이랑 비슷한 SARSA로 frozen lake 문제를 푸는 방법은 아래 링크를 참고해주세요.

https://yhj9855.com/entry/RL-gymnasium-frozen-lake-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-SARSA

[RL] gymnasium frozen lake 강화 학습 - SARSA

안녕하세요! 오늘은 기존 작성한 frozen lake 문제를 SARSA로 진행하는 방법에 대해 포스팅 하겠습니다.SARSA 란?강화 학습의 한 방법으로, Q-learning과 비슷하지만 행동 선택이 다른 방식입니다.Q-learning

yhj9855.com

코드에 대해 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

[RL] gymnasium cart pole 강화 학습 - DQN (0)	2025.02.28
[RL] gymnasium cart pole 강화 학습 - 1 (0)	2025.02.18
[RL] gymnasium frozen lake 강화 학습 - SARSA (1)	2025.02.11
[RL] gymnasium frozen lake 강화 학습 - 1 (1)	2025.01.22

PREV 이전 1 2 3 4 5 NEXT 다음

전체 글

군집 분석

알고리즘 적용

알고리즘 평가

'Python(파이썬) > ML(머신 러닝)' 카테고리의 다른 글

군집 분석

피처 선정

차원 축소

'Python(파이썬) > ML(머신 러닝)' 카테고리의 다른 글

matplotlib으로 Box plot 그리기

seaborn을 사용하여 단일 그래프 그리기

그래프 커스텀 하기

'Python(파이썬) > visualization(시각화)' 카테고리의 다른 글

X축, Y축, 제목 설정하기

범례 설정하기

한글 설정하기

'Python(파이썬) > visualization(시각화)' 카테고리의 다른 글

matplotlib로 단일 그래프 그리기

seaborn을 함께 사용하여 단일 그래프 그리기

그래프 커스텀 하기

'Python(파이썬) > visualization(시각화)' 카테고리의 다른 글

Neural Network 구현

Replay Memory 구현

행동 선택하기

DDQN 공식을 사용해서 업데이트

모델 학습

리워드 시각화 및 모델 테스트

전체 코드

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

Neural Network 구현

Replay Memory 구현

행동 선택하기

DQN 공식을 사용해서 업데이트

모델 학습

리워드 시각화 및 모델 테스트

전체 코드

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

[DQN 전체 코드]

[DDQN 전체 코드]

결과물

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

Q 값을 바탕으로 행동을 선택

선택한 행동을 SARSA 공식을 사용해서 Q 값 업데이트

전체 코드

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

Q 값을 바탕으로 행동을 선택

선택한 행동을 Q-learning 공식을 사용해서 Q 값 업데이트

전체 코드

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

티스토리툴바