'파이썬 독학' 태그의 글 목록

파이썬 독학

[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정) 2025.03.20 1
[시각화] 파이썬 시각화 활용 - Line plot 2025.03.13
[RL] gymnasium frozen lake 강화 학습 - SARSA 2025.02.11 1
[RL] gymnasium frozen lake 강화 학습 - 2 2025.02.03 2
[시각화] 파이썬 시각화 색상 정리 (Matplotlib, Seaborn) 2025.01.14 1
[Crawling] 원신 나무위키 (캐릭터, 성유물) 크롤링 - 1 2024.03.31 51
[Crawling] 네이버 뉴스 크롤링 코드 변경 2024.03.27 40
한국어 데이터 분석 필수 라이브러리 Konlpy(코엔엘파이) 2024.03.17 58
주피터 노트북(Jupyter Notebook) 사용하기 2024.02.19 63
[데이터 분석] 한글 데이터 토픽 모델링 진행하기 2024.02.02 84

[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정)

Japduck_Coding 2025. 3. 20. 16:51

2025. 3. 20. 16:51

728x90

SMALL

728x90

ㄱ

안녕하세요! 오늘은 파이썬으로 하는 시각화 활용 공통 사항에 대해 포스팅 하려고 합니다.

어떤 그래프를 그려도, x축/y축/범례/제목 등은 공통적으로 지정해야 하는데요.

해당 부분이 간단해보이더라도, 시각화에서 상당히 중요한 역할을 하는 경우가 있습니다!

그래서 제가 시각화 하면서 활용했던 부분들을 정리해보려고 합니다('. • ᵕ •. `)

그래프 예시는 line plot으로 진행할 예정입니다.

line plot에 대한 자세한 내용이 궁금하신 분들은 아래 링크를 참고해주세요:)

https://yhj9855.com/entry/%EC%8B%9C%EA%B0%81%ED%99%94-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%9C%EA%B0%81%ED%99%94-%ED%99%9C%EC%9A%A9-Line-plot

[시각화] 파이썬 시각화 활용 - Line plot

안녕하세요! 오늘은 파이썬으로 하는 시각화 활용 Line plot에 대해 포스팅 하려고 합니다.Line plot이란?시간이나 연속적인 값을 나타낼 때 사용되는 그래프로, 일반적인 선 그래프 입니다.보통 x축

yhj9855.com

X축, Y축, 제목 설정하기

기본 설정하기

우선 가장 기본적으로 x축, y축, 제목을 설정하는 것부터 시작하겠습니다!

import numpy as np
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.xlabel("X-axis")
plt.ylabel("Y-axis")
plt.title("Title")
plt.plot(x, y)

위치 변경하기

x축, y축, 제목은 모두 위치를 변경할 수 있습니다.

위치는 두 가지 방법으로 옮길 수 있습니다.

1. pad를 사용하여 간격을 조절

import numpy as np
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.xlabel("X-axis", labelpad=40)
plt.ylabel("Y-axis", labelpad= 30)
plt.title("Title", pad=30)
plt.plot(x, y)

각 축과 제목의 간격이 멀어지신게 보이시나요?

pad 내 숫자가 커질수록 그래프와 축/제목 사이의 간격을 멀게 설정할 수 있습니다.

ㄴ

2. 좌표를 설정하여 위치를 조절

제목은 좌표를 설정해서 위치를 조절할 수 있습니다!

축의 경우에도 동일하게 좌표 설정을 할 수 있는데, 좌표대로 잘 움직이지 않아 거의 사용하지 않습니다ㅠㅠ

import numpy as np
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

fig, ax = plt.subplots(figsize=(6, 4))
# 글씨 크기 조절 가능
plt.xlabel("X-axis", fontsize=14)
plt.ylabel("Y-axis", fontsize=14)
ax.set_title("Title", fontsize=14, x=0.8, y=1.05)
plt.plot(x, y)

제목의 위치가 변경되신게 보이시나요?

x는 좌우의 위치를, y는 상하의 위치를 변경할 수 있습니다!

범례 설정하기

범례란?

범례는 지도나 차트 등에서 참고하라는 뜻으로 나타낸 정보입니다.

파이썬 시각화에서는 보통 각 그래프가 어떤 것을 나타내는지 표기할 때 많이 사용합니다!

아래 그래프처럼 노란색과 연두색이 각각 어떤 그래프를 나타내는지 아래쪽에 표기된 것이 범례입니다.

범례 생성하기

보통 범례는 자동으로 생성되는 경우가 많은데, 그래프를 각각 그릴 경우에는 범례가 생성되지 않습니다.

이 때 직접 범례를 설정하는 것도 가능합니다.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)

line1, = plt.plot(x, y, color='lightskyblue')
line2, = plt.plot(x, y1, color='lightcoral')

# 범례 직접 설정
plt.legend(handles=[line1, line2], labels=["Cos(x)", "Sin(x)"])

plt.xlabel("X-axis")
plt.ylabel("Y-axis")
plt.title("Legend Example")

plt.show()

plt.legend(handles=[line1, line2], labels=["Cos(x)", "Sin(x)"]) 여기서 loc = 옵션을 추가하게 되면 범례의 위치를 어느 정도 조정할 수 있습니다!

예를 들어 upper right 옵션으로 하게 되면, 오른쪽 위에 범례가 생성되는데요, 옵션을 정하지 않으면 가장 적당한 위치에 알아서 생성이 됩니다.

ㄷ

위치 변경하기

위의 사진처럼 범례가 자동으로 생성될 때 그래프를 가리는 경우를 자주 접하실 수 있는데요!

이 때 범례 위치를 변경하는 코드는 알아두시면 유용합니다:)

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)


line1, = plt.plot(x, y, color='lightskyblue')
line2, = plt.plot(x, y1, color='lightcoral')

# 범례 직접 설정
plt.legend(handles=[line1, line2], labels=["Cos(x)", "Sin(x)"], loc='lower right', bbox_to_anchor=(0.81, 0.03))

plt.xlabel("X-axis")
plt.ylabel("Y-axis")
plt.title("Legend Example")

plt.show()

범례의 위치가 변경된 게 보이시나요?

지금은 예쁘게 옮긴 건 아니지만, 범례를 자유롭게 움직일 수 있는 것은 굉장히 편리하니 잘 사용해주세요!

먼저 loc 옵션을 조정하여 큰 틀의 위치를 정해주시고, bbox_to_anchor 내 좌표로 세세한 위치를 조정해주시면 됩니다:)

한글 설정하기

마지막으로 각 축, 제목, 범례를 한글로 정하는 방법에 대해서 알려드리겠습니다!

보통 한글로 설정을 하게 되면 아래 사진처럼 한글이 깨져서 나오기 때문에 한글 설정이 먼저 필요합니다.

한글 설정을 위해서는 먼저 한글 폰트를 찾아야 합니다.

C:\Windows\Fonts 해당 경로로 가시면, 컴퓨터에 설치되어 있는 폰트를 보실 수 있습니다!

이제 저희가 사용하고 싶은 폰트를 고르면 되는데, 아쉽게도 모든 폰트를 지원하지는 않습니다ㅠㅠ

파이썬은 바탕, 굴림, 궁서체 중 골라서 사용하시는게 안전합니다:) (그래도 이것저것 해보시는 걸 추천 드려요)

위의 글씨체 중 하나를 골라 마우스 오른쪽 클릭→속성→이름 복사를 하시면 되는데, 이름은 .ttc 앞까지만 복사해주세요!

※ 만약에 속성이 나타나지 않는다면, 폰트를 더블 클릭해서 들어가신 다음 진행하시면 됩니다.

간혹 HY시리즈는 이름 그대로를 사용하셔야 되는 경우도 있습니다.

예를 들면 HYPost의 경우 HYPost-Medium, HY고딕의 경우 HYGothic-Medium을 사용합니다.

ㄹ

이제 아래 코드를 실행하시게 되면 한글 지원이 가능합니다.

plt.rcParams['font.family'] = 'HYPost-Medium'

이제 한글로 잘 보이는 걸 알 수 있습니다!!

하지만 한글로 변경할 때는 종종 숫자의 마이너스가 깨지는 경우가 있어요ㅠㅠ

해당 경우는 마이너스가 지원되는 한글을 써야하는데, 저는 보통 굴림을 사용합니다.

plt.rcParams['font.family'] = 'gulim'

이제 한글과 마이너스가 모두 잘 보이는 것을 확인할 수 있습니다!

여기까지 축, 제목, 범례 활용을 정리해보았습니다!

이것저것 쓰다보니 꽤 길어졌는데요, 시각화는 예쁘면 예쁠수록 도움이 되기 때문에 세세한 부분이라도 잘 활용하시면 좋을 것 같습니다:)

특히 한글 설정 같은 경우, 글씨체가 이쁘면 보기도 좋으니 여러 폰트로 한 번 사용해보시길 추천드려요ദ്ദി・ᴗ・)✧

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > visualization(시각화)' 카테고리의 다른 글

[시각화] 파이썬 시각화 활용 - Box plot (0)	2025.05.06
[시각화] 파이썬 시각화 활용 - Line plot (0)	2025.03.13
[시각화] 파이썬 시각화 색상 정리 (Matplotlib, Seaborn) (1)	2025.01.14

[시각화] 파이썬 시각화 활용 - Line plot

Japduck_Coding 2025. 3. 13. 12:46

2025. 3. 13. 12:46

728x90

SMALL

728x90

안녕하세요! 오늘은 파이썬으로 하는 시각화 활용 Line plot에 대해 포스팅 하려고 합니다.

Line plot이란?

시간이나 연속적인 값을 나타낼 때 사용되는 그래프로, 일반적인 선 그래프 입니다.

보통 x축에는 연속적인 변수를 y축에는 수치형 데이터를 배치해서 사용하는 경우가 일반적입니다.

저는 보통 식을 그릴 때는 matplotlib, 데이터 프레임이 있는 경우에는 seaborn, matplotlib 두 개를 함께 사용해서 line plot을 그립니다.

matplotlib로 단일 그래프 그리기

우선 먼저 matplotlib를 사용해서 간단한 그래프를 그려보겠습니다.

아래처럼 숫자를 직접 입력하거나, 특정 식이 존재한다면 matplotlib만 사용해서 그리는 것이 간단합니다!

import matplotlib.pyplot as plt

# 왼쪽이 x 값, 오른쪽이 y 값
plt.plot([1, 2, 3, 4], [2, 3, 5, 10])
plt.show()

import numpy as np
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.plot(x, y)
plt.show()

seaborn을 함께 사용하여 단일 그래프 그리기

seaborn은 데이터 프레임과 호환성이 좋기 때문에 보통 데이터 프레임으로 사용합니다.

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
df = pd.DataFrame({"X": x, "Y": y})

sns.lineplot(x="X", y="Y", data=df)

그래프 커스텀 하기

사실 그래프를 그리는 것은 정말 간단합니다!

하지만 그래프를 단순히 그리는 것과 이를 커스텀해서 사용하는 것은 정말 큰 차이가 있습니다.

지금부터는 다양하게 그래프를 커스텀하는 방법에 대해 소개해드리겠습니다!

색상 사용하기

그래프에 색상을 입히는 것입니다.

파이썬에서 사용할 수 있는 색상은 아래 포스팅을 참고해주세요!

https://yhj9855.com/entry/%EC%8B%9C%EA%B0%81%ED%99%94-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%9C%EA%B0%81%ED%99%94-%EC%83%89%EC%83%81-%EC%A0%95%EB%A6%AC-Matplotlib-Seaborn

[시각화] 파이썬 시각화 색상 정리 (Matplotlib, Seaborn)

안녕하세요! 오늘은 데이터 분석에서 정말 중요한 그래프 색상을 정리하는 포스팅을 진행하도록 하겠습니다. 데이터 분석에서 시각화는 정말 중요한데요.똑같이 데이터 분석을 진행했다고 해

yhj9855.com

# matplot
plt.plot(x, y, color='deepskyblue')

# seaborn
sns.lineplot(x="X", y="Y", data=df, color='deeppink')

그래프 동시에 그리기

하나의 영역에 여러 개의 그래프를 그릴 수 있습니다.

그래프가 N개면 N개만큼 그려주면 동일 영역에 그려지는 것을 확인하실 수 있습니다.

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)
df = pd.DataFrame({"X": x, "Y": y})
df1 = pd.DataFrame({"X": x, "Y": y1})

# seaborn
sns.lineplot(x="X", y="Y", data=df, color='lightskyblue')
sns.lineplot(x="X", y="Y", data=df1, color='lightcoral')

# matplotlib
plt.plot(x, y, color='deepskyblue')
plt.plot(x, y1, color='deeppink')

seaborn에서는 하나의 데이터 프레임에서 특정 열을 기준으로 두 개의 그래프를 나눌 수 있습니다.

아래 코드를 보시면 Y열이 label을 기준으로 cos그래프와 sin그래프가 나눠져있기 때문에 이를 label로 분리하여, 그래프를 그릴 수 있습니다.

데이터 분석을 하실 때 생각보다 많이 사용되기 때문에 잘 활용하시면 좋습니다!

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)
df1 = pd.DataFrame({"X": x, "Y": y, "label": 'cos'})
df2 = pd.DataFrame({"X": x, "Y": y1, "label":'sin'})

# df1 밑에 df2를 붙이는 작업
df = pd.concat([df1, df2], ignore_index= True)

# 그래프 영역 크기 정하기 (가로/세로)
plt.figure(figsize=(8, 5))
sns.lineplot(x="X", y="Y", data=df, hue='label', palette=['gold', 'limegreen'])

그래프 축/제목/범례 설정

그래프 제목, x축, y축, 범례 등을 직접 지정할 수 있습니다!

축, 제목, 범례를 설정하는 방법 및 한글 설정하는 자세한 과정은 아래 포스팅을 참고해주세요.

https://yhj9855.com/entry/%EC%8B%9C%EA%B0%81%ED%99%94-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%9C%EA%B0%81%ED%99%94-%ED%99%9C%EC%9A%A9-%EB%B2%94%EB%A1%80-%EC%B6%95-%EC%A0%9C%EB%AA%A9-with-%ED%95%9C%EA%B8%80-%EC%A7%80%EC%A0%95

[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정)

ㄱ안녕하세요! 오늘은 파이썬으로 하는 시각화 활용 공통 사항에 대해 포스팅 하려고 합니다. 어떤 그래프를 그려도, x축/y축/범례/제목 등은 공통적으로 지정해야 하는데요.해당 부분이 간단해

yhj9855.com

그래프 마크 설정하기

그래프 내 x 좌표마다 마크를 설정할 수 있습니다.

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)
df = pd.DataFrame({"X": x, "Y": y})
df1 = pd.DataFrame({"X": x, "Y": y1})

plt.figure(figsize=(8, 5))

# seaborn
sns.lineplot(x="X", y="Y", data=df, color='lightskyblue', marker='o')
sns.lineplot(x="X", y="Y", data=df1, color='lightcoral',  marker='*', markersize=9)

# matplotlib
plt.plot(x, y, color='deepskyblue', marker='o', markersize = 4)
plt.plot(x, y1, color='deeppink', marker='^',  markersize = 5)

하지만 이렇게 x좌표마다 마크를 설정하는 것이 아닌 특정 좌표마다 마크를 설정하고 싶으실 수도 있습니다.

그럴 때는 그래프 위에 점으로 된 그래프를 하나 더 그리는 방향으로 진행할 수 있습니다!

아래 코드는 5번째마다 그래프 위에 점을 찍는다고 보시면 됩니다.

for문 안에 있는 코드를 변경하시면 원하시는 곳에 마크 표시를 하실 수 있습니다.

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)
df = pd.DataFrame({"X": x, "Y": y})
df1 = pd.DataFrame({"X": x, "Y": y1})

plt.figure(figsize=(8, 5))
sns.lineplot(x="X", y="Y", data=df, color='orange')
sns.lineplot(x="X", y="Y", data=df1, color='limegreen')

for i in range(len(x)) :
    if i%5 == 0 :
        plt.scatter(x[i], y[i], color='darkorange', s=15)
        plt.scatter(x[i], y1[i], color='forestgreen', s=15)

그래프 텍스트 표기하기

그래프 내 텍스트를 표기할 수도 있습니다.

텍스트 표기는 위에 마크 설정하는 것처럼 그래프 위에 텍스트를 하나 더 그리는 방향으로 진행할 수 있습니다.

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.cos(x)
y1 = np.sin(x)
df = pd.DataFrame({"X": x, "Y": y})
df1 = pd.DataFrame({"X": x, "Y": y1})

plt.figure(figsize=(8, 5))
sns.lineplot(x="X", y="Y", data=df, color='orange')
sns.lineplot(x="X", y="Y", data=df1, color='limegreen')

for i in range(len(x)) :
    if i%5 == 0 :
        plt.scatter(x[i], y[i], color='darkorange', s=15)
        plt.text(x[i]+0.02, y[i]+0.01, f'{y[i]:.1f}', color='darkorange', ha='left', va='bottom', fontsize=8, fontweight='bold')
        plt.scatter(x[i], y1[i], color='forestgreen', s=15)
        plt.text(x[i]+0.05, y1[i]+0.01, f'{y1[i]:.1f}', color='forestgreen', ha='left', va='bottom', fontsize=8, fontweight='bold')
        
plt.xlabel('')
plt.ylabel('')

여기까지 line plot 활용을 정리해보았습니다!

단순히 그래프를 그리는 것 이상으로 활용하는 부분이 정말 생각보다 많았네요ㅠㅠ

그래프가 잘 숙련되시면 아래 같은 그래프를 그리실 수 있습니다.

코드에 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > visualization(시각화)' 카테고리의 다른 글

[시각화] 파이썬 시각화 활용 - Box plot (0)	2025.05.06
[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정) (1)	2025.03.20
[시각화] 파이썬 시각화 색상 정리 (Matplotlib, Seaborn) (1)	2025.01.14

[RL] gymnasium frozen lake 강화 학습 - SARSA

Japduck_Coding 2025. 2. 11. 15:19

2025. 2. 11. 15:19

728x90

SMALL

728x90

안녕하세요! 오늘은 기존 작성한 frozen lake 문제를 SARSA로 진행하는 방법에 대해 포스팅 하겠습니다.

SARSA 란?

강화 학습의 한 방법으로, Q-learning과 비슷하지만 행동 선택이 다른 방식입니다.

Q-learning이 미래의 최적 행동을 가정하고 학습한다면, SARSA는 실제로 선택한 행동을 기반으로 학습합니다.

즉 (현재 State, 현재 Action, 현재 Reward, 다음 State, 최적의 행동)이 Q-learning이었다면,

(현재 State, 현재 Action, 현재 Reward, 다음 State, 다음 Action)이 SARSA가 되고, 각각의 앞글자를 따와 SARSA라고 이름을 붙이게 된 것입니다.

frozen lake를 Q-learning으로 진행하는 방법은 아래 링크에서 확인해주세요.

https://yhj9855.com/entry/RL-gymnasium-frozen-lake-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-2

[RL] gymnasium frozen lake 강화 학습 - 2

안녕하세요! 오늘은 기존에 작성한 frozen lake 문제를 Q-learning으로 진행하는 방법에 대해 포스팅 하겠습니다. Q-learning이란?강화 학습의 한 방법으로, Q라는 테이블을 이용하는 것입니다.Q 테이블

yhj9855.com

frozen lake에 관한 전체적인 설명은 아래 포스팅에서 진행하고 있으니, 먼저 확인해주세요!

https://yhj9855.com/entry/RL-gymnasium-frozen-lake-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-1

[RL] gymnasium frozen lake 강화 학습 - 1

안녕하세요! 오늘은 gymnasium에서 제공하는 frozen lake 문제에 대한 설명에 대해 포스팅 하겠습니다. 강화 학습이란?행동을 통해 얻는 보상을 기반으로 학습하는 AI의 한 분야입니다.흔히 Reinforcemen

yhj9855.com

그럼 본격적으로 SARSA로 frozen lake 문제를 풀어보도록 하겠습니다.

SARSA로 frozen lake를 풀 때, 크게 두 가지를 생각하시면 됩니다.

Q 값을 바탕으로 행동을 선택
선택한 행동을 SARSA 공식을 사용해서 Q 값 업데이트

위의 두 가지를 하나씩 자세히 살펴보겠습니다.

Q 값을 바탕으로 행동을 선택

해당 부분은 현재까지 업데이트 된 Q 값을 바탕으로 행동을 선택하는 것입니다.

기본적으로는 Q 값이 가장 높은 행동을 선택하면 됩니다.

하지만 여기에는 한 가지 문제점이 있습니다.

Q 값이 제대로 업데이트가 될 때까지 충분한 탐험을 진행하지 못했을 경우, 제대로 된 행동을 추출할 수 없다는 것입니다.

예를 들어, 초반에는 Q 값이 모두 0이기 때문에 (0, 0)에서 왼쪽으로 가는 행동만 선택하기 때문에 게임을 진행할 수가 없습니다.

저희는 이 문제를 해결하기 위해, ϵ-greedy 방법을 사용할 수 있습니다.

ϵ-greedy란?

탐험과 이용의 균형을 맞추기 위한 행동 선택 방법으로, 아래 공식을 따릅니다.

여기서 ϵ은 0과 1 사이의 값으로 ϵ 확률 만큼은 랜덤하게 행동을 하게 하여 탐험을 진행하도록 하고, (1-ϵ) 확률 만큼 Q 값이 가장 높은 행동을 선택하도록 합니다.

해당 ϵ을 초반에 높게 설정하고 점차 ϵ을 줄임으로써, 초반에는 랜덤 행동을 통한 탐험을 하게 하고 점차 Q 값을 이용하도록 행동을 선택할 수 있습니다.

ϵ-greedy를 활용하여 행동을 선택하는 코드는 아래와 같습니다.

# 초기 값은 보통 1로 설정
epsilon = 1.0
train = True

# ϵ-greedy를 활용한 행동 선택
def select_action(state) :
	# 훈련을 할 경우에는 ϵ-greedy 방법을 사용
   	# 테스트를 진행할 때는 온전히 Q 값만 사용
   	# np.random.rand()를 넣어, 후반에도 종종 탐험을 할 수 있도록 함
    if np.random.rand() < epsilon and train :
        action = np.random.choice([0, 1, 2, 3])
    else :
        action = np.argmax(Q[state])
    return action

선택한 행동을 SARSA 공식을 사용해서 Q 값 업데이트

해당 부분은 위에서 선택한 행동을 환경에서 실행해보고, 그 결과 값을 SARSA 공식에 맞게 Q 값을 업데이트 하는 것입니다.

코드로 들어가기 전에 먼저 Q 테이블을 업데이트하는 공식을 먼저 살펴보겠습니다.

해당 수식은 Q(s, a)를 업데이트 하는데, 특정 학습률 α에 있어 (1- α)만큼 현재의 Q 값과 α만큼의 (보상값 r + 할인율 γ * 다음 state와 action의 Q값 Q(s', a'))를 반영한다는 의미입니다.

Q-learning을 배우신 분들은 아시겠지만, Q-learning에서의 maxQ값이 특정 행동 a'의 Q 값인 Q(s', a')로 바뀐 것을 알 수 있습니다.

학습률 α

값이 높을수록 다음 행동 값 즉, 새로운 정보를 더 많이 반영한다는 것이고, 낮을수록 현재의 Q 값 즉, 기존의 경험을 더 많이 유지한다는 의미입니다.

할인율 γ

미래 보상의 중요도를 나타내는 지표로, 보통은 미래의 보상에 너무 의존하지 않도록 1보다 약간 작은 수로 지정하는 것이 보통입니다.

Q(s', a')

실제로 선택한 다음 행동 a'에 대한 Q 값으로, 위의 행동 선택을 기반하여 다음 state에서 실제 action을 고른 값입니다.

이렇게 실제 행동을 기반으로 Q 값을 업데이트 하기 때문에, 안정적이지만 그만큼 느릴 수 있습니다.

하지만, frozen lake는 공간이 작은 문제라서 Q-learning과 크게 결과 차이는 없으실 거예요:)

해당 공식을 바탕으로 SARSA를 진행하는 코드는 아래와 같습니다.

# 학습을 진행할 때는 render 모드 비활성화
env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery)
env.reset()
# 환경의 행동 범위 : 여기서는 상, 하, 좌, 우 총 4개
action_size = env.action_space.n

# defaultdict은 키가 없을 때 자동으로 기본값을 생성하기 때문에 강화 학습에서 많이 사용
Q = defaultdict(lambda: np.zeros(action_size))

alpha = 0.1
gamma = 0.99
# 총 학습을 진행할 에피소드 수
max_episode = 10000

def learn() :
    reward_list = []
    for i in range(1, max_episode+1) :
        # 100번째 마다 학습이 진행되고 있음을 출력
        if i % 100 == 0 :
            # 해당 에피소드까지 진행된 모든 보상의 평균을 구함
            avg_reward = sum(reward_list)/100
            print("\rEpisode {}/{} || average reward {}".format(i, max_episode, avg_reward), end="")
            reward_list = []
        # 에피소드를 처음 시작할 때 reset
        state, _ = env.reset()
        done = False
        all_reward = 0
        # 에피소드가 종료될 때까지 반복
        while not done :
        	# Q 테이블을 바탕으로 action을 고르는 함수
            action = select_action(state)
            # state, reward, done 외 사용하지 않기 때문에 _ 처리
            new_state, reward, done, _, _ = env.step(action)
            next_action = select_action(new_state)
            # SARSA
            Q[state][action] = (1-alpha)*Q[state][action] + alpha*(reward + gamma*Q[new_state][next_action])
            all_reward += reward
            state = new_state
        # 50번째 에피소드 마다 ϵ 값을 줄여줌
        if i % 50 == 0 :
            epsilon *= 0.99
        reward_list.append(all_reward)

위의 두 가지 과정을 합치면 SARSA로 frozen lake를 풀 수 있는 코드가 완성됩니다!

학습 후 테스트를 진행하고 싶으신 경우에는 render를 킨 환경을 다시 세팅해서 해주시면 됩니다.

전체 코드

행동 선택, 학습, 테스트 과정을 모두 포함한 전체 코드는 아래와 같습니다.

import gymnasium as gym
from collections import defaultdict
import numpy as np

# 미끄러짐 옵션 True/False 선택 가능
is_slippery = True
# 8x8 중에 선택 가능
map_size = '4x4'
env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery)
env.reset()
action_size = env.action_space.n

Q = defaultdict(lambda: np.zeros(action_size))

alpha = 0.1
gamma = 0.99
epsilon = 1.0
train = True
max_episode = 100000


def select_action(state) :
    if np.random.rand() < epsilon and train :
        action = np.random.choice([0, 1, 2, 3])
    else :
        action = np.argmax(Q[state])
    return action

def learn() :
    global epsilon
    reward_list = []
    for i in range(1, max_episode+1) :
        # 100번째 마다 학습이 진행되고 있음을 출력
        if i % 100 == 0 :
            # 해당 에피소드까지 진행된 모든 보상의 평균을 구함
            avg_reward = sum(reward_list)/100
            print("\rEpisode {}/{} || average reward {}".format(i, max_episode, avg_reward), end="")
            reward_list = []
        state, _ = env.reset()
        done = False
        all_reward = 0
        while not done :
            action = select_action(state)
            new_state, reward, done, _, _ = env.step(action)
            next_action = select_action(new_state)
            # SARSA
            Q[state][action] = (1-alpha)*Q[state][action] + alpha*(reward + gamma*Q[new_state][next_action])
            all_reward += reward
            state = new_state
        if i % 50 == 0 :
            epsilon *= 0.99
        reward_list.append(all_reward)

# 학습한 Q를 바탕으로 frozen lake 테스트
def testing_after_learning():
	# render를 켜야 제대로 학습이 되었는지 확인할 수 있음
    env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery, render_mode='human')
    total_test_episode = 10
    rewards = []
    for episode in range(total_test_episode):
        state, _ = env.reset()
        episode_reward = 0
        while True: 
            action = select_action(state)
            new_state, reward, done, _, _ = env.step(action)
            episode_reward += reward
            if done:
                rewards.append(episode_reward)
                break
            state = new_state
    print("")
    print("avg: " + str(sum(rewards) / total_test_episode))

if __name__ == "__main__" :
    learn()
    testing_after_learning()

테스트를 진행하면서 is_slippery 옵션을 껐을 경우에는 1.0 보상을 받으면 성공이고, is_slippery 옵션을 켰을 경우에는 70% 이상 1.0 보상을 받으면 성공이라고 보실 수 있습니다.

추가로 is_slippery 옵션을 켰을 경우에는 학습을 많이 진행해야 어느 정도 수렴하시는 걸 보실 수 있습니다!

아무래도 model-free로 진행을 하니까 많이 느리더라구요ㅠㅠ

model-based

model-free가 아닌 어느 정도 model-based로 빠르게 학습을 하고 싶으신 경우 아래 상황을 고려할 수 있습니다.

행동 한 번을 진행할 때마다 reward에 - 진행
→ RL이 최단 경로로 진행하려는 경향을 학습할 수 있음
구멍에 빠졌을 경우, reward에 크게 - 진행
→ 구멍에 빠지지 않는 쪽으로 빠르게 학습할 수 있음
도착했을 경우, reward를 크게 추가
→ 도착 지점에 확실히 도착하기 위해 큰 reward를 지급

그 외에도 벽에 부딪히거나 하는 등 맵을 알고 있기 때문에 환경에 맞게 reward를 추가로 주거나 마이너스를 진행하여, model-based 모델을 만들 수도 있습니다.

그래도 강화 학습을 제대로 알기 위해서는 model-free로 진행해보는 것을 추천드립니다!

코드에 대해 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

[RL] gymnasium cart pole 강화 학습 - DQN (0)	2025.02.28
[RL] gymnasium cart pole 강화 학습 - 1 (0)	2025.02.18
[RL] gymnasium frozen lake 강화 학습 - 2 (2)	2025.02.03
[RL] gymnasium frozen lake 강화 학습 - 1 (1)	2025.01.22

[RL] gymnasium frozen lake 강화 학습 - 2

Japduck_Coding 2025. 2. 3. 14:44

2025. 2. 3. 14:44

728x90

SMALL

728x90

안녕하세요! 오늘은 기존에 작성한 frozen lake 문제를 Q-learning으로 진행하는 방법에 대해 포스팅 하겠습니다.

Q-learning이란?

강화 학습의 한 방법으로, Q라는 테이블을 이용하는 것입니다.

Q 테이블 내 값은 특정 상황에서 어떤 행동을 했을 때의 보상 값의 큰 정도를 나타내는 것으로, 학습이 진행되면서 해당 값들을 업데이트 하여 최적의 행동을 찾는 것입니다.

frozen lake에 관한 전체적인 설명은 아래 포스팅에서 진행하고 있으니, 먼저 확인해주세요!

https://yhj9855.com/entry/RL-gymnasium-frozen-lake-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-1

[RL] gymnasium frozen lake 강화 학습 - 1

yhj9855.com

그럼 본격적으로 Q-learing으로 frozen lake 문제를 풀어보도록 하겠습니다.

Q-learning으로 frozen lake를 풀 때, 크게 두 가지를 생각하시면 됩니다.

Q 값을 바탕으로 행동을 선택
선택한 행동을 Q-learning 공식을 사용해서 Q 값 업데이트

위의 두 가지를 하나씩 자세히 살펴보겠습니다.

Q 값을 바탕으로 행동을 선택

해당 부분은 현재까지 업데이트 된 Q 값을 바탕으로 행동을 선택하는 것입니다.

기본적으로는 Q 값이 가장 높은 행동을 선택하면 됩니다.

하지만 여기에는 한 가지 문제점이 있습니다.

Q 값이 제대로 업데이트가 될 때까지 충분한 탐험을 진행하지 못했을 경우, 제대로 된 행동을 추출할 수 없다는 것입니다.

예를 들어, 초반에는 Q 값이 모두 0이기 때문에 (0, 0)에서 왼쪽으로 가는 행동만 선택하기 때문에 게임을 진행할 수가 없습니다.

저희는 이 문제를 해결하기 위해, ϵ-greedy 방법을 사용할 수 있습니다.

ϵ-greedy란?

탐험과 이용의 균형을 맞추기 위한 행동 선택 방법으로, 아래 공식을 따릅니다.

ϵ-greedy를 활용하여 행동을 선택하는 코드는 아래와 같습니다.

# 초기 값은 보통 1로 설정
epsilon = 1.0
train = True

# ϵ-greedy를 활용한 행동 선택
def select_action(state) :
	# 훈련을 할 경우에는 ϵ-greedy 방법을 사용
   	# 테스트를 진행할 때는 온전히 Q 값만 사용
   	# np.random.rand()를 넣어, 후반에도 종종 탐험을 할 수 있도록 함
    if np.random.rand() < epsilon and train :
        action = np.random.choice([0, 1, 2, 3])
    else :
        action = np.argmax(Q[state])
    return action

선택한 행동을 Q-learning 공식을 사용해서 Q 값 업데이트

해당 부분은 위에서 선택한 행동을 환경에서 실행해보고, 그 결과 값을 Q-learning 공식에 맞게 Q 값을 업데이트 하는 것입니다.

코드로 들어가기 전에 먼저 Q 테이블을 업데이트하는 공식을 먼저 살펴보겠습니다.

해당 수식은 Q(s, a)를 업데이트 하는데, 특정 학습률 α에 있어 (1- α)만큼 현재의 Q 값과 α만큼의 (보상값 r + 할인율 γ * 다음 state의 가장 높은 Q값 maxQ(s', a'))를 반영한다는 의미입니다.

학습률 α

할인율 γ

미래 보상의 중요도를 나타내는 지표로, 보통은 미래의 보상에 너무 의존하지 않도록 1보다 약간 작은 수로 지정하는 것이 보통입니다.

maxQ(s', a')

다음 상태인 s'에서 가능한 모든 행동 중 가장 높은 Q 값을 의미하며, s'은 현재 state에서 위에서 고른 행동을 실행한 결과 값이라고 보시면 됩니다.

이제 해당 공식을 바탕으로 Q-learning을 하는 코드는 아래와 같습니다.

# 학습을 진행할 때는 render 모드 비활성화
env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery)
env.reset()
# 환경의 행동 범위 : 여기서는 상, 하, 좌, 우 총 4개
action_size = env.action_space.n

# defaultdict은 키가 없을 때 자동으로 기본값을 생성하기 때문에 강화 학습에서 많이 사용
Q = defaultdict(lambda: np.zeros(action_size))

alpha = 0.1
gamma = 0.99
# 총 학습을 진행할 에피소드 수
max_episode = 10000

def learn() :
    reward_list = []
    for i in range(1, max_episode+1) :
        # 100번째 마다 학습이 진행되고 있음을 출력
        if i % 100 == 0 :
            # 해당 에피소드까지 진행된 모든 보상의 평균을 구함
            avg_reward = sum(reward_list)/100
            print("\rEpisode {}/{} || average reward {}".format(i, max_episode, avg_reward), end="")
            reward_list = []
        # 에피소드를 처음 시작할 때 reset
        state, _ = env.reset()
        done = False
        all_reward = 0
        # 에피소드가 종료될 때까지 반복
        while not done :
        	# Q 테이블을 바탕으로 action을 고르는 함수
            action = select_action(state)
            # state, reward, done 외 사용하지 않기 때문에 _ 처리
            new_state, reward, done, _, _ = env.step(action)
            # Q-learning 공식
            Q[state][action] = (1-alpha)*Q[state][action] + alpha*(reward + gamma*np.max(Q[new_state]))
            all_reward += reward
            state = new_state
        # 50번째 에피소드 마다 ϵ 값을 줄여줌
        if i % 50 == 0 :
            epsilon *= 0.99
        reward_list.append(all_reward)

위의 두 가지 과정을 합치면 Q-learing으로 frozen lake를 풀 수 있는 코드가 완성됩니다!

학습 후 테스트를 진행하고 싶으신 경우에는 render를 킨 환경을 다시 세팅해서 해주시면 됩니다.

전체 코드

행동 선택, 학습, 테스트 과정을 모두 포함한 전체 코드는 아래와 같습니다.

import gymnasium as gym
from collections import defaultdict
import numpy as np

# 미끄러짐 옵션 True/False 선택 가능
is_slippery = True
# 8x8 중에 선택 가능
map_size = '4x4'
env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery)
env.reset()
action_size = env.action_space.n

Q = defaultdict(lambda: np.zeros(action_size))

alpha = 0.1
gamma = 0.99
epsilon = 1.0
train = True
max_episode = 100000


def select_action(state) :
    if np.random.rand() < epsilon and train :
        action = np.random.choice([0, 1, 2, 3])
    else :
        action = np.argmax(Q[state])
    return action

def learn() :
    global epsilon
    reward_list = []
    for i in range(1, max_episode+1) :
        # 100번째 마다 학습이 진행되고 있음을 출력
        if i % 100 == 0 :
            # 해당 에피소드까지 진행된 모든 보상의 평균을 구함
            avg_reward = sum(reward_list)/100
            print("\rEpisode {}/{} || average reward {}".format(i, max_episode, avg_reward), end="")
            reward_list = []
        state, _ = env.reset()
        done = False
        all_reward = 0
        while not done :
            action = select_action(state)
            new_state, reward, done, _, _ = env.step(action)
            Q[state][action] = (1-alpha)*Q[state][action] + alpha*(reward + gamma*np.max(Q[new_state]))
            all_reward += reward
            state = new_state
        if i % 50 == 0 :
            epsilon *= 0.99
        reward_list.append(all_reward)

# 학습한 Q를 바탕으로 frozen lake 테스트
def testing_after_learning():
	# render를 켜야 제대로 학습이 되었는지 확인할 수 있음
    env = gym.make('FrozenLake-v1', desc=None, map_name=map_size, is_slippery=is_slippery, render_mode='human')
    total_test_episode = 10
    rewards = []
    for episode in range(total_test_episode):
        state, _ = env.reset()
        episode_reward = 0
        while True: 
            action = select_action(state)
            new_state, reward, done, _, _ = env.step(action)
            episode_reward += reward
            if done:
                rewards.append(episode_reward)
                break
            state = new_state
    print("")
    print("avg: " + str(sum(rewards) / total_test_episode))

if __name__ == "__main__" :
    learn()
    testing_after_learning()

추가로 is_slippery 옵션을 켰을 경우에는 학습을 많이 진행해야 어느 정도 수렴하시는 걸 보실 수 있습니다!

아무래도 model-free로 진행을 하니까 많이 느리더라구요ㅠㅠ

model-based

model-free가 아닌 어느 정도 model-based로 빠르게 학습을 하고 싶으신 경우 아래 상황을 고려할 수 있습니다.

행동 한 번을 진행할 때마다 reward에 - 진행
→ RL이 최단 경로로 진행하려는 경향을 학습할 수 있음
구멍에 빠졌을 경우, reward에 크게 - 진행
→ 구멍에 빠지지 않는 쪽으로 빠르게 학습할 수 있음
도착했을 경우, reward를 크게 추가
→ 도착 지점에 확실히 도착하기 위해 큰 reward를 지급

그래도 강화 학습을 제대로 알기 위해서는 model-free로 진행해보는 것을 추천드립니다!

Q-learning이랑 비슷한 SARSA로 frozen lake 문제를 푸는 방법은 아래 링크를 참고해주세요.

https://yhj9855.com/entry/RL-gymnasium-frozen-lake-%EA%B0%95%ED%99%94-%ED%95%99%EC%8A%B5-SARSA

[RL] gymnasium frozen lake 강화 학습 - SARSA

안녕하세요! 오늘은 기존 작성한 frozen lake 문제를 SARSA로 진행하는 방법에 대해 포스팅 하겠습니다.SARSA 란?강화 학습의 한 방법으로, Q-learning과 비슷하지만 행동 선택이 다른 방식입니다.Q-learning

yhj9855.com

코드에 대해 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > RL (강화 학습)' 카테고리의 다른 글

[RL] gymnasium cart pole 강화 학습 - DQN (0)	2025.02.28
[RL] gymnasium cart pole 강화 학습 - 1 (0)	2025.02.18
[RL] gymnasium frozen lake 강화 학습 - SARSA (1)	2025.02.11
[RL] gymnasium frozen lake 강화 학습 - 1 (1)	2025.01.22

[시각화] 파이썬 시각화 색상 정리 (Matplotlib, Seaborn)

Japduck_Coding 2025. 1. 14. 16:10

2025. 1. 14. 16:10

728x90

SMALL

728x90

안녕하세요! 오늘은 데이터 분석에서 정말 중요한 그래프 색상을 정리하는 포스팅을 진행하도록 하겠습니다.

데이터 분석에서 시각화는 정말 중요한데요.

똑같이 데이터 분석을 진행했다고 해도, 얼만큼 잘 표현할 수 있는지에 따라 굉장히 다른 평가를 받을 수 있습니다.

저도 실제로 회사에서 그래프 색상 사용 덕분에 보고서의 평가가 훨씬 좋았던 경험이 많았기 때문에 파이썬에서 사용할 수 있는 색상을 정리해보고자 합니다.

단일 색상

단일 색상을 이미 지정된 색상을 단일 알파벳으로 지정하는 것, 색상의 이름을 직접 지정하는 것으로 구분할 수 있습니다.

단일 색상 사용 예시

단일 색상인 lightskyblue와 lightcoral을 사용한 예시 입니다.

이 두 색은 제가 자주 사용하는 색 조합인데요!

두 개의 비교군을 보여줄 때 사용하는데, 눈이 아프지 않아 좋습니다.

plt.figure(figsize=(12, 8))  # 그래프 크기 설정
lineplot = sns.lineplot(x='a', y='b', hue='c', data=mini_data, palette=['lightskyblue', 'lightcoral'])
line_colors = {line.get_label(): line.get_color() for line in lineplot.lines}
line_color = {'A': 'deepskyblue', 'B': 'red'}

for name, group in mini_data.groupby('c') :
    for x, y in zip(group['a'], group['b']):
        if x%5 == 0 :
            plt.text(x, y+1.1, f'{y:.1f}%', color=line_color[name], ha='right', va='bottom', fontsize=12, fontweight='bold')
            plt.scatter(x, y, color=line_colors[name], s=70)
        else :
            plt.text(x, y+1.1, f'{y:.1f}%', color=line_color[name], ha='right', va='bottom', fontsize=8, fontweight='bold')
            plt.scatter(x, y, color=line_colors[name], s=30)

컬러맵 (color map)

컬러맵은 색상의 분포를 의미합니다.

산점도나 하트맵 같이 단일 색상으로 정하기 어려운 그래프의 경우 컬러맵을 사용하는 경우가 많습니다.

컬러맵 사용 예시

컬러 맵인 Reds와 coolwarm을 사용한 예시 입니다.

개인적으로 히트맵은 Reds와 같이 비슷한 색상의 컬러 맵을 많이 사용하고, 워드클라우드 같이 데이터가 뚜렷하게 구분되어야 할 경우에는 다른 색상이 많은 컬러 맵을 사용하는 것 같아요!

plt.figure(figsize=(10, 10))
sns.heatmap(df, annot=True, cmap='Reds', fmt='.2f', linewidths = 0.1,annot_kws={'size': 12}, cbar=False)

Naver = np.array(Image.open("./A.png"))
plt.figure(figsize=(30,30))
wc = WordCloud(        relative_scaling=0.2,mask = Naver,
                       font_path="/Windows/Fonts/Cafe24Dangdanghae-v2.0.otf",
                       background_color="white",
                       min_font_size=1,
                       max_font_size=50,
                       max_words=100,
                       colormap = 'coolwarm'
                     ).generate_from_frequencies(wordcloud_data)
plt.imshow(wc)
plt.axis('off')
plt.show()

그 외에도 컬러 맵을 리스트로 지정한 후 하나씩 단일 색상으로 사용할 수도 있습니다!

저는 개인적으로 Qualitative colormaps 같은 경우, 제가 눈으로 색상을 하나씩 확인할 수 있어서 해당 컬러맵은 단일 색상처럼 사용하는 경우도 자주 있는 것 같습니다.

# Pastel1 컬러맵 불러오기
cmap = plt.get_cmap('Pastel1')
# 여섯 번째 색상 선택
color = cmap(5)

plt.figure(figsize=(8, 5))
plt.bar(categories, values, color=color, edgecolor='black')
plt.tight_layout()
plt.show()

여기까지 파이썬에서 사용할 수 있는 색상을 정리해보았습니다!

해당 색상을 잘 활용하여 보고서의 퀄리티를 높이는 시각화를 하시면 좋겠습니다:)

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > visualization(시각화)' 카테고리의 다른 글

[시각화] 파이썬 시각화 활용 - Box plot (0)	2025.05.06
[시각화] 파이썬 시각화 활용 - 범례, 축, 제목 (with 한글 지정) (1)	2025.03.20
[시각화] 파이썬 시각화 활용 - Line plot (0)	2025.03.13

[Crawling] 원신 나무위키 (캐릭터, 성유물) 크롤링 - 1

Japduck_Coding 2024. 3. 31. 20:00

2024. 3. 31. 20:00

728x90

SMALL

안녕하세요! 오늘은 원신 나무위키에 플레이어블 캐릭터와 성유물 카테고리의 글을 크롤링하는 코드에 대해 포스팅 진행하겠습니다.

해당 포스팅에서는 전체 코드와 결과물 이미지만 첨부합니다.

크롤링의 자세한 과정은 추후에 포스팅 진행하도록 하겠습니다.

해당 크롤링은 원신 각 캐릭터의 성유물 추천 옵션과 세트를 빠르게 파악하기 위한 데이터 수집을 목적으로 하고 있습니다!

나무위키에서 수집할 정보는 아래와 같습니다.

※ 사진 속 정보는 나히다를 예시로 한 것입니다.

1. 캐릭터의 이름, 속성, 무기

2. 권장 성유물 옵션

3. 추천 성유물 세트 및 설명

4. 성유물 이름, 세트 효과, 획득처

크롤링 진행 방식

크롤링은 총 3개의 코드로 진행을 합니다.

첫 번째 코드

원신 캐릭터의 상세 정보가 담긴 링크를 전부 긁어옵니다.
캐릭터의 이름과 링크만 저장하여 하나의 엑셀 파일로 저장합니다.

두 번째 코드

첫 번째 코드에서 저장한 엑셀 파일에서 각 캐릭터의 상세 정보 링크를 가져옵니다.
캐릭터의 속성, 무기, 권장 성유물 옵션, 추천 성유물 세트 및 상세 설명의 내용을 가지고 옵니다.
캐릭터의 이름, 속성, 무기 권장 성유물 옵션을 저장하여 하나의 엑셀 파일로 저장합니다.
캐릭터의 이름, 추천 성유물 세트, 상세 설명을 저장하여 하나의 엑셀 파일로 저장합니다.

엑셀 파일을 두 개로 나눈 이유는 이후에 원신 캐릭터 성유물을 조회하는 엑셀 파일을 쉽게 만들기 위해서 입니다!

세번째 코드

성유물 세트 이름, 2세트, 4세트, 획득처의 내용을 가지고 옵니다.
획득처에서 비경의 이름을 분리합니다.
성유물 세트 이름, 2세트, 4세트, 획득처, 비경의 이름을 저장하여 하나의 엑셀 파일로 저장합니다.

비경 이름을 분리한 이유는 이후 원신 캐릭터 성유물을 조회하는 엑셀 파일을 쉽게 만들기 위해서 입니다!

[실제 코드 및 결과물]

첫 번째 코드

import pandas as pd
from selenium import webdriver
import time
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as E
from openpyxl import *

# 원신/캐릭터 나무위키 링크
link = 'https://namu.wiki/w/%EC%9B%90%EC%8B%A0/%EC%BA%90%EB%A6%AD%ED%84%B0'

# 나무위키는 BeautifulSoup이 먹히지 않기 때문에 동적 크롤링으로 진행
driver = webdriver.Chrome('chromedriver.exe')
driver.get(link)
time.sleep(3)

# '원소별' 버튼 클릭
button = list(driver.find_elements(By.CLASS_NAME, "_3xTXXXtF"))
button[1].click()
time.sleep(3)

Character = pd.DataFrame({'캐릭터 이름' : [], '링크' : []})

character_info = driver.find_elements(By.CLASS_NAME, "s3zppxXT")

for i in range(len(character_info)) :
    character = character_info[i]
    # 캐릭터 이름만 담기 위해서 데이터를 정제하는 부분
    # 캐릭터의 소개가 끝나는 부분
    if character.text == '취소선' :
        break
    # 주인공 캐릭터인 아이테르와 루미네는 데이터 수집에서 제외
    # 캐릭터 이름이 아닌데, 들어온 정보는 모두 제외
    if character.text == '' or  '원신' in character.text or '아이테르' in character.text or character.text in ['불', '물', '바람', '번개', '풀', '얼음', '바위'] :
        pass
    else :
    	# 캐릭터의 이름
        name = character.text
        # 캐릭터의 이름이 길 경우, 엔터로 구분이 되어있기 때문에 이를 띄어쓰기로 변경
        if '\n' in name :
            name = name.replace('\n', ' ')
        Char = [name, str(character.get_attribute('href'))]
        Character.loc[i] = Char

with pd.ExcelWriter('genshin_link.xlsx') as writer :
    Character.to_excel(writer, sheet_name='링크', index=False)

첫 번째 코드 결과물

두 번째 코드

import pandas as pd
from selenium import webdriver
import time
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as E
from openpyxl import *

# 캐릭터의 이름과 상세정보 링크가 담긴 엑셀 파일
link = pd.read_excel('genshin_link.xlsx')
Main_link = list(link['링크'])
Character = list(link['캐릭터 이름'])

Information = pd.DataFrame({'캐릭터 이름' : [], '무기' : [], '시간의 모래' : [], '공간의 성배' : [], '이성의 왕관' : [], '부옵션' : []})
Relic_Information = pd.DataFrame({'캐릭터 이름' : [], '성유물' : [], '평가': []})

driver = webdriver.Chrome('chromedriver.exe')

# 엑셀 전체 인덱스를 의미
# 저장할 엑셀이 두 개이기 때문에 인덱스도 두 개가 필요
total_index = 0
relic_index = 0

# 특정 캐릭터의 상세정보에서 오류가 발생할 경우을 대비
try :
    for k in range(len(Main_link)) :
        driver.get(Main_link[k])
        time.sleep(3)
        
        # 캐릭터의 무기 수집 과정
        attack = driver.find_elements(By.CLASS_NAME, 'cIflhYhI')
        for i in range(len(attack)) :
            if '무기' == attack[i].text :
                attack_index = i+1
                break
        weapon = attack[attack_index].text
        
        # 캐릭터의 성유물 수집 과정
        info = driver.find_elements(By.CLASS_NAME, 'D7SMSdcV')
        for i in range(len(info)) :
        	# 권장 성유물 옵션을 파악하기 위해 위치를 저장
            if '권장 성유물' in info[i].text :
                index = i
                break
        # 권성유물의 정보가 담긴 공간
        sung = info[index]
        
        # 권장 성유물 옵션 수집 과정
        options = sung.find_elements(By.CLASS_NAME, 'cIflhYhI')
        Option = [Character[k], weapon]
        for j in range(len(options)) :
        	# 권장 성유물 옵션에서 필요한 정보가 들어있는 부분
            if j in [4, 5, 6, 8] :
                option = options[j].text
                # 옵션이 여러 개일 경우, 줄바꿈으로 구분하기 때문에 이를 / 구분으로 변경
                if '\n' in option :
                    option = option.replace('\n', ' / ')
                Option.append(option)
        # 권장 성유물의 옵션만 담는 부분
        Information.loc[total_index] = Option
        total_index = total_index+1
        
        # 추천 성유물 세트 및 상세 설명 수집 과정
        sets = sung.find_elements(By.CLASS_NAME, 'W078FM6Z')
        # 성유물 세트는 캐릭터마다 여러 개 존재하기 때문에 이를 구분하기 위한 부분
        character_number = 1
        for j in range(len(sets)) :
            # li로 구분되어 있는데, 그 안에 div가 같이 들어가 있기 때문에 문제가 발생한다.
            relic_info = list(sets[j].text.split('\n'))
            for m in range(len(relic_info)) :
            	# 실제 정보가 들어가 있는 부분
                if m%2 == 1:
                    one_set = relic_info[m-1]
                    set_info =relic_info[m]
                    character_name = Character[k]+'%d' %(character_number)
                    Option = [character_name, one_set, set_info]
                    Relic_Information.loc[relic_index] = Option
                    character_number = character_number+1
                    relic_index = relic_index+1
except Exception as e :
    print(e)
    print(Main_link[k])
        
with pd.ExcelWriter('genshin.xlsx') as writer :
    Information.to_excel(writer, sheet_name='성유물 옵션', index=False)

with pd.ExcelWriter('genshin_set_relic.xlsx') as writer :
    Relic_Information.to_excel(writer, sheet_name='성유물', index=False)

두 번째 코드 결과물

세 번째 코드

import pandas as pd
from selenium import webdriver
import time
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as E
from openpyxl import *

# 원신/성유물 나무위키 링크
link = 'https://namu.wiki/w/%EC%9B%90%EC%8B%A0/%EC%84%B1%EC%9C%A0%EB%AC%BC'

driver = webdriver.Chrome('chromedriver.exe')
driver.get(link)
time.sleep(3)

Relic = pd.DataFrame({'성유물 세트' : [], '2세트' : [], '4세트' : [], '획득처' : [], '비경' : []})
total_index = 0

# 성유물 세트 효과 수집 과정
info = driver.find_elements(By.CLASS_NAME, 'TiHaw-AK._6803dcde6a09ae387f9994555e73dfd7')
for i in range(len(info)) :
    # 첫 번째 성유물이 검투사의 피날레이기 때문에 해당 부분이 기준
    # 여기서부터 끝까지가 성유물에 대한 정보가 존재
    if '검투사' in info[i].text :
        index_start = i
        break
# 전체적으로 3단위로 원하는 정보가 있음
for i in range(index_start, len(info), 3) :
    relic_info = info[i].text.split('\n')
    # 1세트 효과가 있는 4성 성유물은 생략한다.
    if '모시는 자' in relic_info[0] :
        continue
    # 획득처에서 비경을 구분하는 과정
    if '비경' in  relic_info[7] :
        place_index_start = relic_info[7].index(':')
        place = relic_info[7][place_index_start+2:]
        if ',' in place :
            place_end_index = place.index(',')
            place = place[:place_end_index]
    else :
        place = ''
    relic = [relic_info[0], relic_info[3], relic_info[5], relic_info[7], place]
    Relic.loc[total_index] = relic
    total_index = total_index+1

with pd.ExcelWriter('genshin_relic.xlsx') as writer :
    Relic.to_excel(writer, sheet_name='성유물', index=False)

세 번째 코드 결과물

해당 데이터를 활용하여 원신 캐릭터의 성유물을 엑셀에서 쉽게 조회하는 포스팅은 아래에서 확인해주세요!

https://yhj9855.com/entry/%EC%9B%90%EC%8B%A0-%EC%84%B1%EC%9C%A0%EB%AC%BC-%EC%84%B8%ED%8C%85-%EC%97%91%EC%85%80%EB%A1%9C-%EC%89%BD%EA%B2%8C-%EB%B3%B4%EA%B8%B0-45-%EC%97%85%EB%8D%B0%EC%9D%B4%ED%8A%B8-%EA%B8%B0%EC%A4%80-%EC%B9%98%EC%98%A4%EB%A6%AC-%ED%8F%AC%ED%95%A8

[원신] 성유물 세팅 엑셀로 쉽게 보기 (4.5 업데이트 기준, 치오리 포함)

안녕하세요! 오늘은 원신 4.5 업데이트 모든 캐릭터 성유물 세팅 포스팅을 진행하겠습니다. 4.5 업데이트는 간단한 업데이트여서 호다닥 갖고 왔습니다. 캐릭터의 성유물 세팅은 엑셀 내 저장되

yhj9855.com

코드에 대해 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다!

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > Crawling(크롤링)' 카테고리의 다른 글

[Crawling] 네이버 뉴스 크롤링 - 2 (변경) (0)	2025.01.08
[Crawling] 네이버 뉴스 크롤링 코드 변경 (40)	2024.03.27
[Crawling] 네이버 뉴스 크롤링 - 3 (72)	2024.01.11
[Crawling] 네이버 뉴스 크롤링 - 2 (74)	2024.01.08

[Crawling] 네이버 뉴스 크롤링 코드 변경

Japduck_Coding 2024. 3. 27. 09:37

2024. 3. 27. 09:37

728x90

SMALL

728x90

안녕하세요! 네이버 뉴스가 24년 1월 25일부터 페이지가 보여주는 방식이 변경되면서, 이전 포스팅에서 진행했던 첫 번째 코드를 사용할 수 없게 되었습니다.

그래서 변경된 페이지에서 적용되는 크롤링 코드를 새로 가지고 왔습니다!

※ 두 번째 코드는 동일하게 적용됩니다.

해당 포스팅에서는 전체 코드만 첨부합니다.

크롤링할 페이지의 설명, 크롤링 진행 방식, 이전 크롤링 코드가 궁금하신 분들은 아래 링크에서 확인하실 수 있습니다.

https://yhj9855.com/entry/Crawling-%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81-1

[Crawling] 네이버 뉴스 크롤링 - 1

안녕하세요. 크롤링에서 가장 첫 포스팅을 네이버 뉴스 크롤링으로 하게 되었어요. 아무래도 바쁜 일상 속에서 매일 뉴스 기사를 파악하는 부분이 시간적으로 힘들었는데, 크롤링하고 데이터

yhj9855.com

크롤링의 자세한 과정이 궁금하신 분들은 아래 링크를 봐주시면 됩니다!

<첫 번째 코드의 자세한 과정>

https://yhj9855.com/entry/Crawling-%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81-2-%EB%B3%80%EA%B2%BD

[Crawling] 네이버 뉴스 크롤링 - 2 (변경)

안녕하세요. 오늘은 기존에 작성한 네이버 뉴스 클로링 코드에서 첫 번째 코드의 자세한 크롤링 과정을 포스팅 하겠습니다.새롭게 변경된 첫 번째 코드의 자세한 크롤링 과정입니다! 네이버 뉴

yhj9855.com

<두 번째 코드의 자세한 과정>

https://yhj9855.com/entry/Crawling-%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81-3

[Crawling] 네이버 뉴스 크롤링 - 3

안녕하세요. 오늘은 기존에 작성한 네이버 뉴스 크롤링 코드에서 두 번째 코드의 자세한 크롤링 과정을 포스팅 하겠습니다. 네이버 뉴스 크롤링 전체 코드를 확인하고 싶으신 분들은 아래 링크

yhj9855.com

[첫 번째 코드]

전체 코드

import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
import time
from selenium.webdriver.common.by import By
from openpyxl import *

# 2024.01.25 부터 변경된 네이버 기사를 새로 크롤링하기 위해 만든 코드

link = 'https://news.naver.com/breakingnews/section/105/229?date='
# 스크랩 하고 싶은 날짜를 년도월일 나열해준다.
# 날짜를 쉽게 바꾸기 위해 date를 따로 선언해준다.
date = '20250107'
# 메인 링크는 링크에 날짜가 붙은 구조이기 때문에 이렇게 작성해준다.
main_link = link + date 
Main_link = pd.DataFrame({'number' : [], 'title' : [], 'link' : []})

# Selenium 4 버전 이상 부터는 해당 방법으로 사용해야 driver 인식이 된다.
service = Service('chromedriver.exe')
driver = webdriver.Chrome(service=service)
driver.get(main_link)
time.sleep(3)

# 기사 더보기 버튼
more_button = driver.find_element(By.CLASS_NAME, 'section_more_inner._CONTENT_LIST_LOAD_MORE_BUTTON')

# 기사 더보기가 몇 개가 있을지 모르기 때문에 오류가 날 때까지 누르는 것으로 한다.
# 여기서 발생하는 오류란 버튼을 찾을 수 없다 즉, 버튼이 없을 때 발생하는 오류이다.
while True :
    try :
        more_button.click()
        time.sleep(3)
    except :
        break

articles = driver.find_elements(By.CLASS_NAME, 'sa_text_title._NLOG_IMPRESSION')
for i in range(len(articles)) :
    title = articles[i].text.strip()
    link = articles[i].get_attribute('href')
    li = [i+1, title, link]
    Main_link.loc[i] = li


excel_name = 'news_' + date + '.xlsx'
with pd.ExcelWriter(excel_name) as writer :
    Main_link.to_excel(writer, sheet_name='링크', index=False)

[두 번째 코드]

전체 코드

from bs4 import BeautifulSoup
import requests
import pandas as pd
from openpyxl import *
import time
import urllib

# 첫 번째 코드에서 지정한 뉴스의 링크들이 담긴 파일
link = pd.read_excel('news_20231222.xlsx')
# 엑셀 파일이 헷갈리지 않게 최종 결과파일에도 날짜를 넣어줌
excel_name = 'news_detail_20231222.xlsx'
Main_link = list(link['link'])
# number: 기사의 수, title: 기사의 제목, information: 본문 내용, link: 기사의 링크
Information = pd.DataFrame({'number' : [], 'title' : [], 'information' : [], 'link' : []})
# 본문 내용만 추가하면 되기 때문에 데이터 프레임에 미리 나머지 내용을 담아줌
Information['number'] = link['number']
Information['title'] = link['title']
Information['link'] = link['link']
information = []

for main_link in Main_link :
	# 기사가 전체적으로 2개의 구조를 가지고 있음 (게임/리뷰 카테고리에 한하여)
    # 하나의 구조를 기준으로 삼고, 해당 부분에서 오류가 발생하면 다음 구조의 기사로 판단
    try :
        response = requests.get(main_link, headers={'User-Agent':'Moailla/5.0'})
        if response.status_code == 200 :
            html = response.content
            soup = BeautifulSoup(html, 'html.parser')
            # 기사의 본문 내용만 담고 있는 부분
            info = soup.find('div', {'id' : 'newsct_article'}).text.strip()
            # 기사 내용 데이터 분석을 위해서 줄바꿈을 띄어쓰기로 변경
            info = info.replace('\n', '')
            information.append(info)
    except :
    	# 다른 구조의 기사 크롤링 코드
        # 여기서 오류가 나는 경우는 게임/리뷰 기사가 아닌 다른 카테고리의 기사로 판단
        try :
            response = requests.get(main_link, headers={'User-Agent':'Moailla/5.0'})
            if response.status_code == 200 :
                html = response.content
                soup = BeautifulSoup(html, 'html.parser')
                # 기사의 본문 내용을 담고 있는 부분
                info = soup.find('div', {'id' : 'newsEndContents'}).text.strip()
                info = info.replace('\n', '')
                # 해당 구조의 기사는 기자의 정보가 본문과 무조건 같이 존재
                # 기자의 정보 부분은 필요가 없기 때문에 기자 정보의 기준점이 되는 부분을 찾음
                # 기자의 정보 기준이 기사제공이라는 단어이기 때문에 그 이후는 삭제
                end = info.index('기사제공')
                info = info[:end]
                information.append(info)
        # 다른 카테고리의 기사가 들어올 경우에는 정보를 담지 않는 것으로 함
        except Exception as e :
        	info = ''
            information.append(info)
            # 오류가 발생하는 이유와 발생하는 링크를 출력하여 오류를 확인하는 장치
            #print(e)
            #print(main_link)

Information['information'] = information

with pd.ExcelWriter(excel_name) as writer :
    Information.to_excel(writer, sheet_name='결과값', index=False)

뉴스 크롤링 데이터를 이용한 워드클라우드 포스팅은 아래에서 확인해주세요!

https://yhj9855.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%ED%95%9C%EA%B8%80%EB%A1%9C-%EC%9B%8C%EB%93%9C%ED%81%B4%EB%9D%BC%EC%9A%B0%EB%93%9C-%EB%A7%8C%EB%93%A4%EA%B8%B0-feat%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81

[데이터 분석] 한글로 워드클라우드 만들기 (feat.네이버 뉴스 크롤링)

안녕하세요. 오늘은 크롤링 데이터로 워드클라우드(wordcloud)를 만드는 방법에 대해 포스팅 하겠습니다. 크롤링 데이터는 네이버 뉴스 크롤링을 사용할 예정입니다! 네이버 뉴스 크롤링 과정이

yhj9855.com

뉴스 크롤링 데이터를 이용한 토픽모델링 포스팅은 아래세어 확인해주세요!

https://yhj9855.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%ED%95%9C%EA%B8%80-%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%86%A0%ED%94%BD-%EB%AA%A8%EB%8D%B8%EB%A7%81-%EC%A7%84%ED%96%89%ED%95%98%EA%B8%B0

[데이터 분석] 한글 데이터 토픽 모델링 진행하기

안녕하세요! 오늘은 한글 데이터로 토픽 모델링(topic modeling)을 하는 방법에 대해 포스팅 하겠습니다. 한글 데이터는 네이버 뉴스 크롤링 데이터를 사용할 예정입니다. 네이버 뉴스 크롤링 과정

yhj9855.com

코드에 대해 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > Crawling(크롤링)' 카테고리의 다른 글

[Crawling] 네이버 뉴스 크롤링 - 2 (변경) (0)	2025.01.08
[Crawling] 원신 나무위키 (캐릭터, 성유물) 크롤링 - 1 (51)	2024.03.31
[Crawling] 네이버 뉴스 크롤링 - 3 (72)	2024.01.11
[Crawling] 네이버 뉴스 크롤링 - 2 (74)	2024.01.08

한국어 데이터 분석 필수 라이브러리 Konlpy(코엔엘파이)

Japduck_Coding 2024. 3. 17. 22:05

2024. 3. 17. 22:05

728x90

SMALL

안녕하세요!

오늘은 한국어 데이터 분석을 위해 꼭 필요한 Konlpy(코엔엘파이) 라이브러리에 대해서 포스팅 하겠습니다.

Konlpy 란?

한국어 자연어 처리를 위한 파이썬 라이브러리 입니다.

Konlpy의 특징

Konlpy은 다양한 한국어 형태소 분석기를 지원하기 때문에 같은 문장을 다른 방식으로 분석을 하는 것이 가능합니다.

※ Konlpy는 설치 및 사용 환경을 설정하는 과정이 조금 복잡하기 때문에 따로 포스팅을 진행하도록 하겠습니다!

Konlpy이 제공하는 형태소 분석기 종류

Konlpy은 아래 5가지 형태소 분석기를 제공합니다.

Kkma
Komoran
Hannaum
Okt (구 Twittrer)
Mecab: 일본어 형태소 분석기를 한국어로 변경한 분석기로, 세종 말뭉치로 만들어진 CSV 형태의 사전 (Windows에서 잘 지원이 되지 않음)

Mecab은 Windows에서 잘 지원이 되지 않기 때문에 나머지 4개의 형태소 분석기만 비교를 해보도록 하겠습니다!

728x90

Kkma

서울대 지능형 데이터 시스템 연구실에서 개발한 형태소 분석기 입니다.

비교적 정확한 품사를 구분하는 형태소 분석기로 띄어쓰기 오류에 강하고, 다의어 처리에 효과적이지만, 단어의 수가 증가할수록 분석을 진행하는 시간이 가장 크게 느려지는게 특징입니다.

Kkma는 4가지의 함수를 제공합니다.

아래는 4가지 함수와 코드 예시입니다.

from konlpy.tag import Kkma

kkma = Kkma()
text = "꼬꼬마 형태소 분석기를 사용해 봅시다."

morphs: 문장을 형태소 단위로 추출

morphs_result = kkma.morphs(text)

Output: ['꼬꼬마', '형태소', '분석', '기', '를', '사용', '하', '어', '보', 'ㅂ시다', '.']

nouns: 문장을 명사 단위로 추출

nouns_result = kkma.nouns(text)

Output: ['꼬꼬마', '형태소', '분석', '분석기']

pos: 문장을 형태소 단위로 추출, 각 형태소의 품사와 함께 반환

pos_result = kkma.pos(text)

Output: [('꼬꼬마', 'NNG'), ('형태소', 'NNG'), ('분석', 'NNG'), ('기', 'NNG'), ('를', 'JKO'), ('사용', 'NNG'), ('하', 'XSV'), ('어', 'ECS'), ('보', 'VXV'), ('ㅂ시다', 'EFN'), ('.', 'SF')]

sentences : 여러 문장으로 이루어진 텍스트를 문장 단위로 추출

text = "꼬꼬마 형태소 분석기를 사용해 봅시다. 이것은 간단한 예시입니다."
sentences_result = kkma.sentences(text)

Output: ['꼬꼬마 형태소 분석기를 사용해 봅시다.', '이것은 간단한 예시입니다.']

Komoran

Shineware에서 개발한 형태소 분석기 입니다.

대용량 말뭉치를 학습하여 품사 태깅에 높은 정확도를 보이며, 빠른 분석 속도와 높은 성능을 보유하고 있습니다.

Komoran은 3가지의 함수를 제공합니다.

아래는 3가지 함수와 코드 예시입니다.

from konlpy.tag import Komoran

komoran = Komoran()
text = "코모란 형태소 분석기를 사용해 봅시다."

morphs: 문장을 형태소 단위로 추출

morphs_result = komoran.morphs(text)

Output: ['코모란', '형태소', '분석', '기', '를', '사용', '하', '아', '보', 'ㅂ시다', '.']

nouns: 문장을 명사 단위로 추출

nouns_result = komoran.nouns(text)

Output: ['코모란', '형태소', '분석', '기']

pos: 문장을 형태소 단위로 추출, 각 형태소의 품사와 함께 반환

pos_result = komoran.pos(text)

Output: [('코모란', 'NNP'), ('형태소', 'NNG'), ('분석', 'NNG'), ('기', 'NNG'), ('를', 'JKO'), ('사용', 'NNG'), ('하', 'XSV'), ('아', 'EC'), ('보', 'VX'), ('ㅂ시다', 'EF'), ('.', 'SF')]

Hannaum

국립 국어원에서 개발한 형태소 분석기 입니다.

복합 명사를 적절하게 처리하고, 복잡한 구조의 문장에서도 안정적으로 형태소 분석을 수행합니다.

Hannaum은 3가지의 함수를 제공합니다.

아래는 3가지 함수와 코드 예시입니다.

from konlpy.tag import Hannanum

hannanum = Hannanum()
text = "한나눔 형태소 분석기를 사용해 봅시다."

morphs: 문장을 형태소 단위로 추출

morphs_result = hannanum.morphs(text)

Output: ['한나눔', '형태소', '분석', '기', '를', '사용', '하', '어', '보', 'ㅂ시다', '.']

nouns: 문장을 명사 단위로 추출

nouns_result = hannanum.nouns(text)

Output: ['한나눔', '형태소', '분석', '기']

pos: 문장을 형태소 단위로 추출, 각 형태소의 품사와 함께 반환

pos_result = hannanum.pos(text)

Output: [('한나눔', 'N'), ('형태소', 'N'), ('분석', 'N'), ('기', 'N'), ('를', 'J'), ('사용', 'N'), ('하', 'X'), ('어', 'E'), ('보', 'P'), ('ㅂ시다', 'E'), ('.', 'S')]

Okt

Twitter에서 개발한 형태소 분석기 입니다.

복합 명사 분석에 우수하며, 속도가 빠르고 경량화된 형태로 제공되어 다양한 환경에서 사용할 수 있습니다.

Okt는 4가지의 함수를 제공합니다.

아래는 4가지 함수와 코드 예시입니다.

from konlpy.tag import Okt

okt = Okt()
text = "Okt 형태소 분석기를 사용해 봅시다."

morphs: 문장을 형태소 단위로 추출

morphs_result = okt.morphs(text)

Output: ['Okt', '형태소', '분석기', '를', '사용', '해', '봅시다', '.']

nouns: 문장을 명사 단위로 추출

nouns_result = okt.nouns(text)

Output: ['Okt', '형태소', '분석기']

pos: 문장을 형태소 단위로 추출, 각 형태소의 품사와 함께 반환

pos_result = okt.pos(text)

Output: [('Okt', 'Alpha'), ('형태소', 'Noun'), ('분석기', 'Noun'), ('를', 'Josa'), ('사용', 'Noun'), ('해', 'Verb'), ('봅시다', 'Verb'), ('.', 'Punctuation')]

phrases: 문장을 어구 단위로 추출

phrases_result = okt.phrases(text)

Output: ['Okt', 'Okt 형태소', '형태소', '분석기', '사용', 'Okt 형태소 분석기', '분석']

Konlpy를 활용하여 한국어 데이터 기반 워드 클라우드, 토픽 모델링 데이터 분석을 진행한 예시는 아래 페이지에서 확인하실 수 있습니다!

[데이터 분석] 한글로 워드클라우드 만들기 (feat.네이버 뉴스 크롤링)

yhj9855.com

[데이터 분석] 한글 데이터 토픽 모델링 진행하기

yhj9855.com

궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다!

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

주피터 노트북(Jupyter Notebook) 사용하기

Japduck_Coding 2024. 2. 19. 19:38

2024. 2. 19. 19:38

728x90

SMALL

안녕하세요! 오늘은 데이터 분석에서 자주 활용하는 주피터 노트북(Jupyter Notebook) 을 사용하는 방법에 대해서 포스팅 하겠습니다.

주피터 노트북이란?

대화형 컴퓨팅 환경을 제공하는 오픈 소스 웹 기반 플랫폼입니다.

주피터 노트북의 장점

1. 주피터 노트북은 대화형 인터페이스를 제공하고 있기 때문에 결과를 즉시 확인할 수 있습니다.

※ 사진 속 예시는 제가 작성한 웹툰 데이터 분석 코드의 일부입니다.

2. 주피터 노트북은 시각화 및 그래프를 지원하고 있기 때문에 노트북에 바로 결과가 표시되어 시각적으로 확인하기 쉽습니다.

※ 사진 속 예시는 제가 작성한 웹툰 데이터 분석 코드의 일부입니다.

3. 주피터 노트북은 다른 사용자와 공유하기 쉽습니다.

기본적인 파일 형태인 ipynb는 GitHub 등의 협업 플랫폼에서 공유가 가능하기 때문에 협업하기 어렵지 않습니다.

또한 HTML 파일로 내보내기가 가능하기 때문에 결과물과 함께 공유가 가능하며, HTML 파일이기 때문에 다른 사용자가 열어보기 쉽습니다.

주피터 노트북의 사용처

주피터 노트북은 데이터 분석 라이브러리를 모두 사용할 수 있고, 분석 후 시각화 작업이 수월하기 때문에 데이터 분석에서 많이 활용되고 있습니다.

또한 머신 러닝, 딥러닝 모델 학습이 가능하기 때문에 해당 분야에서도 자주 활용하고 있습니다.

주피터 노트북 설치 및 실행하기

파이썬이 설치되신 분들은 아주 쉽게 주피터 노트북을 설치할 수 있습니다!

설치 및 실행 과정은 아래와 같습니다.

1. cmd 창을 여신 후에 pip install jupyter notebook 을 실행해주시면 됩니다.

※ cmd 창은 윈도우 검색에서 cmd라고 검색하시면 나오는 명령 프롬포트를 의미합니다.

2. 주피터 노트북을 실행하고자 하는 폴더로 이동합니다.

주피터 노트북은 같은 폴더에 함께 있는 파일만 인식하는 경우가 많기 때문에 폴더를 잘 선택해야 합니다.

3. 폴더의 빈 공간에 Shift+마우스 우클릭을 실행한 후, Power Shell 창을 열어줍니다.

※ 높은 버전의 Window에서는 '더 많은 옵션 표시'를 누르면 Power Shell 창 열기 버튼이 나타납니다.

4. Power Shell 창에 jupyter notebook 을 입력 후 실행해주시면 됩니다.

cmd에서 바로 실행하는 경우도 있는데, cmd보다 Power Shell의 기능이 더 강력하고 확장성이 뛰어나기 때문에 Power Shell로 실행하시는 것을 추천합니다!

5. 자동으로 주피터 노트북과 연결된 인터넷 창이 뜨면 실행 완료입니다!

만약 자동으로 연결된 인터넷 창이 뜨지 않는다면, Power Shell 창에 나와있는 인터넷 주소를 복사하여 입력하시면 됩니다.

주피터 노트북에 코드 작성하기

이제 주피터 노트북을 실행하였으니, 코드를 작성해보도록 하겠습니다.

저는 보통 Python(파이썬) 코딩을 진행합니다만, R과 같이 다른 프로그래밍 언어도 사용가능합니다!

하지만 이 글에서는 파이썬 코드를 작성하는 법만 다루도록 하겠습니다.

주피터 노트북에서 파이썬 코드를 작성하는 방법은 아래와 같습니다.

1. 'New' 버튼을 클릭하여 파이썬 코드를 작성할 파일을 생성한다.

파일의 이름은 기본적으로 Untitled으로 생성되기 때문에 파일의 이름은 변경해주셔야 합니다.

※ Untitled을 더블 클릭하면 이름을 바로 변경할 수 있습니다.

2. 코드 셀에 원하는 코드를 작성해줍니다.

주피터 노트북은 기본적으로 코드를 실행하는 코드 셀을 제공해주고 있기 때문에 코드를 바로 작성해주시면 됩니다!

만약 코드가 아닌 일반 텍스트로 작성하고 싶은 경우에는 'm' 단축키를 누르거나, 상단의 'Code'를 'Markdown'으로 변경하여 코드 셀을 텍스트 셀로 변환해주시면 됩니다.

3. 코드가 작성 완료된 셀을 실행시켜줍니다.

코드 셀을 실행하는 방법은 총 3가지 방법이 있습니다.

Ctrl+Enter: 현재의 코드 셀만 실행을 하고, 새로운 코드 셀을 추가하지 않습니다.
주피터 노트북의 실행 키를 누르는 방법: 현재의 코드 셀만 실행을 하고, 새로운 코드 셀을 추가합니다.
※ ▶Run 버튼이 실행 키 입니다.
Shift+Enter: 현재의 코드 셀만 실행을 하고, 새로운 코드 셀을 추가합니다.

▶▶ 이렇게 생긴 버튼을 누르게 되면 처음 코드 셀부터 마지막 코드 셀까지 순차적으로 실행이 됩니다.

실행된 순서는 In [ ]에서 [ ] 안의 숫자로 확인할 수 있고, 굳이 순서대로가 아닌 제가 원하는 셀만 실행시킬 수 있기 때문에 실행 순서를 잘 이용하면 코드를 효율적으로 작성할 수 있습니다!

4. 완성된 코드 저장합니다.

주피터 노트북에 코드를 모두 작성했다면, Ctrl+s 단축키를 사용하여 저장해주면 됩니다.

주피터 노트북은 어느 정도 실시간 저장이 보장되지만, 저장하는 습관 길러두시는 편이 좋습니다!

저장된 파일은 .ipynb 라는 확장자를 가지는데요.

더블 클릭으로 여는 것은 조금 어렵고, 주피터 노트북에서 열어보시거나 Github에 올려서 확인하실 수 있습니다!

주피터 노트북은 활용을 잘하면 정말 유용한 코드 플랫폼이기 때문에 사용법을 익혀두시는 걸 정말 추천드립니다!

제가 주피터 노트북을 활용하여 워드 클라우드, 토픽 모델링 데이터 분석을 진행한 예시는 아래 페이지에서 확인하실 수 있습니다!

[데이터 분석] 한글로 워드클라우드 만들기 (feat.네이버 뉴스 크롤링)

yhj9855.com

[데이터 분석] 한글 데이터 토픽 모델링 진행하기

yhj9855.com

궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > 도구' 카테고리의 다른 글

크롬드라이버 설치하기 (최신버전과 다른 크롬드라이버 설치) (2)	2024.09.02
크롬드라이버(ChromeDriver) 설치하기 (73)	2024.02.27
크롬 개발자 도구 사용하기 (73)	2024.01.16

[데이터 분석] 한글 데이터 토픽 모델링 진행하기

Japduck_Coding 2024. 2. 2. 17:05

2024. 2. 2. 17:05

728x90

SMALL

728x90

안녕하세요! 오늘은 한글 데이터로 토픽 모델링(topic modeling)을 하는 방법에 대해 포스팅 하겠습니다.

한글 데이터는 네이버 뉴스 크롤링 데이터를 사용할 예정입니다.

네이버 뉴스 크롤링 과정이 궁금하신 분은 아래 링크를 확인해주세요:)

https://yhj9855.com/entry/Crawling-%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81-1

[Crawling] 네이버 뉴스 크롤링 - 1

yhj9855.com

토픽 모델링이란?

비지도 학습으로, 텍스트 문서 집합을 하나 이상의 추상적인 주제(=토픽)로 분류하는 작업을 말합니다.

텍스트의 구조를 파악하거나, 다량의 텍스트를 분석할 때 자주 사용되는 데이터 분석 방법입니다!

토픽 모델링을 진행하는 건 Jupyter Notebook에서 하시는 걸 추천드립니다.

Jupyter Notebook를 설치하고 사용하는 방법은 아래 링크에서 확인해주세요!

https://yhj9855.com/entry/%EC%A3%BC%ED%94%BC%ED%84%B0-%EB%85%B8%ED%8A%B8%EB%B6%81Jupyter-Notebook-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B8%B0

주피터 노트북(Jupyter Notebook) 사용하기

안녕하세요! 오늘은 데이터 분석에서 자주 활용하는 주피터 노트북(Jupyter Notebook) 을 사용하는 방법에 대해서 포스팅 하겠습니다. 주피터 노트북이란? 대화형 컴퓨팅 환경을 제공하는 오픈 소스

yhj9855.com

필요한 라이브러리 설치

토픽 모델링은 머신러닝 모델 중 LDA 모델을 사용합니다.

LDA 모델에 대한 자세한 설명은 아래 링크에서 확인해주세요!

https://ko.wikipedia.org/wiki/%EC%9E%A0%EC%9E%AC_%EB%94%94%EB%A6%AC%ED%81%B4%EB%A0%88_%ED%95%A0%EB%8B%B9

잠재 디리클레 할당 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 자연어 처리에서 잠재 디리클레 할당(Latent Dirichlet allocation, LDA)은 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지를 서술하는 대한 확률적 토픽 모

ko.wikipedia.org

저는 머신러닝을 sklearn 라이브러리를 사용했기 때문에 sklearn 라이브러리를 설치해주시면 됩니다!

sklearn 라이브러리 설치가 어려우신 분들은 colab에서 진행해주셔도 됩니다.

colab의 자세한 사용법은 추후 따로 포스팅을 진행하도록 하겠습니다!

또한, 한글 텍스트 데이터를 다루고 있기 때문에 이를 다루는 라이브러리가 필요합니다.

저는 한글 텍스트를 다루는 라이브러리 중 Konply 라이브러리를 사용했습니다.

Konply 라이브러리와 관련된 자세한 설명은 아래 포스팅을 확인해주세요!

https://yhj9855.com/entry/%ED%95%9C%EA%B5%AD%EC%96%B4-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%ED%95%84%EC%88%98-%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC-Konlpy%EC%BD%94%EC%97%94%EC%97%98%ED%8C%8C%EC%9D%B4

한국어 데이터 분석 필수 라이브러리 Konlpy(코엔엘파이)

안녕하세요! 오늘은 한국어 데이터 분석을 위해 꼭 필요한 Konlpy(코엔엘파이) 라이브러리에 대해서 포스팅 하겠습니다. Konlpy 란? 한국어 자연어 처리를 위한 파이썬 라이브러리 입니다. Konlpy의

yhj9855.com

데이터 로드 후 정제하기

필요한 라이브러리를 설치한 후에는 pandas를 사용하여 데이터를 불러옵니다.

저는 2024년 01월 17일 네이버 게임/리뷰 카테고리의 기사 크롤링 데이터를 불러와 정제를 진행하도록 하겠습니다.

# 파일 이름만 적을 때는 파일이 실행 파일과 같은 곳에 저장되어 있어야 한다.
result = pd.read_excel('파일 이름')
# 기사의 제목 데이터
Title = list(result['title'])
# 기사의 내용 데이터
Information = list(result['information'])
# 기사의 제목과 내용을 하나의 리스트에 담았다.
Total = []
for i in range(len(result)) :
    Total.append(Title[i]+' '+Information[i])

※ Total 데이터의 양이 너무 많아서 데이터 확인은 진행하지 않겠습니다.

명사로 데이터 분류하기

토픽을 제대로 분류하기 위해서는 데이터를 의미 있는 데이터만 남기는 것이 중요합니다.

그 중 가장 빠른 방법이 명사인 데이터만 남기는 것인데요.

명사로 분류를 하지 않을 경우, '있다', '있는' 과 같이 보기만 하면 이해하지 못하는 단어들이 높은 비중을 차지하는 경우가 많기 때문에 제대로 데이터 분석이 되지 않는 경우가 많이 발생합니다.

명사로 분류하기 위해 Konpy 라이브러리를 사용하려고 하는데요.

Konply가 지원하는 형태소 분석 중 저는 Komoran을 사용하였습니다.

Konply이 지원하는 다른 형태소 분석은 아래 포스팅에서 확인해주세요!

한국어 데이터 분석 필수 라이브러리 Konlpy(코엔엘파이)

안녕하세요!오늘은 한국어 데이터 분석을 위해 꼭 필요한 Konlpy(코엔엘파이) 라이브러리에 대해서 포스팅 하겠습니다. Konlpy 란?한국어 자연어 처리를 위한 파이썬 라이브러리 입니다. Konlpy의

yhj9855.com

명사로 형태소 분석을 하는 코드는 아래와 같습니다.

# 형태소 분석기로 Komoran을 사용
komoran = Komoran()
# Total 데이터를 명사로 분류한 후에 띄어쓰기로 붙여넣기 진행
# 줄바꿈으로 진행하도 상관없으나, 줄바꿈으로 진행 시, 이후 띄어쓰기 대신 모두 줄바꿈으로 변경해야한다.
total_nouns = [' '.join(komoran.nouns(doc)) for doc in Total]

추가 전처리 진행하기

total_nouns 데이터는 이제 명사로만 이루어진 데이터입니다.

그대로 토픽 모델링을 진행해도 되지만, 생각보다 의미 없는 데이터가 많이 존재하기 때문에 추가적으로 데이터 전처리를 진행해주는 것이 좋습니다.

예를 들면 '것', '이', '등' 과 같은 단어를 삭제하기 위해서 두 글자 명사만 넣어준다거나, 특정 카테고리의 뉴스이기 때문에 자주 등장하는 명사는 제거한다거나, 기업의 이름들이 명사로 이상하게 분류되어 있는 부분을 원래 기업 이름으로 변경을 해준다거나 하는 방법으로 데이터 전처리를 진행해주시면 됩니다.

제가 진행한 전처리 코드는 아래와 같습니다.

# 추가 데이터 전처리 과정
for i in range(len(total_nouns)) :
    
    # 자주 등장하는 단어들을 꾸준히 붙여준다. (기업 이름 등)
    # total_nouns[i]]가 하나의 문자열이기 때문에 reaplace를 통해 변경한다.
    total_nouns[i] = total_nouns[i].replace('위 메이드', '위메이드')
    total_nouns[i] = total_nouns[i].replace('위 믹스', '위믹스')
    total_nouns[i] = total_nouns[i].replace('컴투스 홀', '컴투스홀딩스')
    total_nouns[i] = total_nouns[i].replace('개발 사', '개발사')
    total_nouns[i] = total_nouns[i].replace('펄 어비스', '펄어비스')
    total_nouns[i] = total_nouns[i].replace('콜 라보', '콜라보')
    total_nouns[i] = total_nouns[i].replace('카 테 고리', '카테고리')
    total_nouns[i] = total_nouns[i].replace('확률 형', '확률형')
    total_nouns[i] = total_nouns[i].replace('역대 급', '역대급')
    total_nouns[i] = total_nouns[i].replace('마비 노기', '마비노기')
    total_nouns[i] = total_nouns[i].replace('게임 위', '게임위')
    total_nouns[i] = total_nouns[i].replace('컬 래 버 레이 션', '콜라보레이션')
    total_nouns[i] = total_nouns[i].replace('콜 라보 레이 션', '콜라보레이션')
    total_nouns[i] = total_nouns[i].replace('빅 게임', '빅게임')
    total_nouns[i] = total_nouns[i].replace('엔 씨', '엔씨')
    total_nouns[i] = total_nouns[i].replace('스타트 업', '스타트업')
    total_nouns[i] = total_nouns[i].replace('디바 이스', '디바이스')
    total_nouns[i] = total_nouns[i].replace('선택 지', '선택지')
    total_nouns[i] = total_nouns[i].replace('치지 직', '치지직')
    total_nouns[i] = total_nouns[i].replace('어 플리 케이 션', '어플리케이션')
    total_nouns[i] = total_nouns[i].replace('게임 쇼', '게임쇼')
    total_nouns[i] = total_nouns[i].replace('아스 달', '아스달')
    total_nouns[i] = total_nouns[i].replace('김실 장', '김실장')
    total_nouns[i] = total_nouns[i].replace('행 안부', '행안부')
    
    # 게임 뉴스이기 때문에 게임과 관련된 부분, 뉴스와 관련된 부분은 제거한다.
    total_nouns[i] = total_nouns[i].replace('게임', '')
    total_nouns[i] = total_nouns[i].replace('기자', '')
    total_nouns[i] = total_nouns[i].replace('기사', '')
    total_nouns[i] = total_nouns[i].replace('진행', '')
    total_nouns[i] = total_nouns[i].replace('이용자', '')
    total_nouns[i] = total_nouns[i].replace('플레이', '')
    total_nouns[i] = total_nouns[i].replace('이번', '')

	# 매일매일 기사에서 반복되는 단어들을 삭제한다.
    # 의미가 없는 단어들은 아니지만, 지속적으로 나오면서 의미를 부여하기 어려운 단어가 되었다.
    total_nouns[i] = total_nouns[i].replace('지난해', '')
    total_nouns[i] = total_nouns[i].replace('전년', '')
    total_nouns[i] = total_nouns[i].replace('콘텐츠', '')
    total_nouns[i] = total_nouns[i].replace('출시', '')
    total_nouns[i] = total_nouns[i].replace('서비스', '')
    total_nouns[i] = total_nouns[i].replace('모바일', '')
    total_nouns[i] = total_nouns[i].replace('제공', '')
    total_nouns[i] = total_nouns[i].replace('예정', '')
	
    # 단어가 두 글자 이상인 것만 토픽 모델링을 진행할 데이터에 넣어준다.
	a = total_nouns[i].split(' ')
    data = ''
    for j in a :
        if len(j) >= 2 :
            # 동일한 이유로 띄어쓰기로 붙여 넣는다.
            # 마찬가지로 줄바꿈으로 진행해도 된다.
            data = data+' '+j
    total_nouns[i] = data

저는 total_nouns의 일부를 확인하고 진행을 하고 있기 때문에 여러분들은 여러분들의 데이터에 맞게 전처리를 진행하시면 됩니다!

LDA 모델에 학습하기 알맞게 데이터 변형하기

데이터 전처리가 끝난 후에는 LDA 모델에 학습하기 알맞게 데이터를 변형해야 합니다.

데이터를 변형하는 코드는 아래와 같습니다.

# CountVectorizer 객체 생성
# CountVectorizer는 문서에서 단어의 빈도수를 계산하는 도구이다.
CV_vectorizer = CountVectorizer()

# total_nouns에 있는 단어의 빈도수를 행렬로 변경한다.
X = CV_vectorizer.fit_transform(total_nouns)

LDA 모델 생성 및 데이터 학습

이제 데이터가 완성되었으니, LDA 모델을 만들어 데이터를 학습시키도록 하겠습니다!!

LDA 모델을 만드는 코드는 아래와 같습니다.

# 토픽의 개수를 지정한다.
num_topics = 6

# LDA 모델을 생성한다.
# 동일한 결과물을 얻기 위해서 random_state(난수)를 42로 고정한다.
lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)

# 위에서 만든 데이터 X를 LDA 모델에 학습을 시킨다.
# 이제 lda는 데이터 X가 6개의 토픽으로 분류된 정보가 담겨있다.
lda.fit(X)

각 토픽 내 주요 키워드 찾기

토픽으로 분류를 완료하였으니, 각 토픽이 어떤 키워드를 가지고 있는지 확인해보도록 하겠습니다.

저는 각 토픽마다 7개의 키워드를 추출해서 데이터 프레임을 새로 만들었습니다!

키워드의 수는 원하는대로 지정하시면 됩니다.

키워드를 추출하는 코드는 아래와 같습니다.

# CountVectorizer를 통해 추출된 단어의 목록을 얻는다.
# 단어의 목록은 array로 저장되어 있다.
CV_feature_names = CV_vectorizer.get_feature_names_out()

# 각 토픽의 키워드를 담을 리스트
# 여기에 초기화를 진행해주지 않으면, 다른 날짜의 기사를 진행할 때 진행이 잘 되지 않을 수 있다.
topic_keywords = []

# 토픽 수를 구분하는 변수
topic_index = 1

# 키워드 수를 구분하는 변수
# 키워드 수를 변경하고 싶다면, 숫자를 원하는 키워드 수로 변경하면 된다.
num_word = 7

# lda.components_가 이중 array로 되어 있기 때문에 데이터를 쉽게 다루기 위해수 enumerate로 데이터를 가져온다.
for topic_idx, topic in enumerate(lda.components_):
    # topic에는 단어의 빈도 확률이 들어있기 때문에 가장 높은 빈도 확률 7개의 인덱스를 추출한다.
    top_keywords_idx = topic.argsort()[::-1][:num_word]
    # 단어 목록에서 빈도 확률과 동일한 인덱스를 가진 단어를 추출한다.
    top_keywords = [CV_feature_names[i] for i in top_keywords_idx]
    # 토픽을 구분하는 값을 맨 앞에 삽입해준다.
    top_keywords.insert(0, 'Topic %d' %(topic_index))
    topic_index = topic_index+1
    topic_keywords.append(top_keywords)

# 추출한 7개의 키워드를 데이터 프레임으로 변경한다.
df_topic_keywords = pd.DataFrame(topic_keywords, columns=["Topic"]+ [f"Keyword {i+1}" for i in range(num_word)])

이렇게 만들어진 df_topic_keywords의 결과물은 아래와 같습니다!

저는 6개의 토픽과 7개의 키워드로 진행을 했기 때문에 이런 결과가 나왔습니다.

실제 토픽의 수와 비슷할수록 정확하게 토픽을 구분하지만, 실제 토픽의 수를 알 수 없으니 다양하게 해보시길 바랍니다.

전체코드

import pandas as pd
from konlpy.tag import *
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

result = pd.read_excel('파일 이름')
Title = list(result['title'])
Information = list(result['information'])

Total = []
for i in range(len(result)) :
    Total.append(Title[i]+' '+Information[i])
    
komoran = Komoran()
total_nouns = [' '.join(komoran.nouns(doc)) for doc in Total]

# 전처리 과정
for i in range(len(total_nouns)) :
    total_nouns[i] = total_nouns[i].replace('위 메이드', '위메이드')
    total_nouns[i] = total_nouns[i].replace('위 믹스', '위믹스')
    total_nouns[i] = total_nouns[i].replace('컴투스 홀', '컴투스홀딩스')
    total_nouns[i] = total_nouns[i].replace('개발 사', '개발사')
    total_nouns[i] = total_nouns[i].replace('펄 어비스', '펄어비스')
    total_nouns[i] = total_nouns[i].replace('콜 라보', '콜라보')
    total_nouns[i] = total_nouns[i].replace('카 테 고리', '카테고리')
    total_nouns[i] = total_nouns[i].replace('확률 형', '확률형')
    total_nouns[i] = total_nouns[i].replace('역대 급', '역대급')
    total_nouns[i] = total_nouns[i].replace('마비 노기', '마비노기')
    total_nouns[i] = total_nouns[i].replace('게임 위', '게임위')
    total_nouns[i] = total_nouns[i].replace('컬 래 버 레이 션', '콜라보레이션')
    total_nouns[i] = total_nouns[i].replace('콜 라보 레이 션', '콜라보레이션')
    total_nouns[i] = total_nouns[i].replace('빅 게임', '빅게임')
    total_nouns[i] = total_nouns[i].replace('엔 씨', '엔씨')
    total_nouns[i] = total_nouns[i].replace('스타트 업', '스타트업')
    total_nouns[i] = total_nouns[i].replace('디바 이스', '디바이스')
    total_nouns[i] = total_nouns[i].replace('선택 지', '선택지')
    total_nouns[i] = total_nouns[i].replace('치지 직', '치지직')
    total_nouns[i] = total_nouns[i].replace('어 플리 케이 션', '어플리케이션')
    total_nouns[i] = total_nouns[i].replace('게임 쇼', '게임쇼')
    total_nouns[i] = total_nouns[i].replace('아스 달', '아스달')
    total_nouns[i] = total_nouns[i].replace('김실 장', '김실장')
    total_nouns[i] = total_nouns[i].replace('행 안부', '행안부')
    total_nouns[i] = total_nouns[i].replace('게임', '')
    total_nouns[i] = total_nouns[i].replace('기자', '')
    total_nouns[i] = total_nouns[i].replace('기사', '')
    total_nouns[i] = total_nouns[i].replace('진행', '')
    total_nouns[i] = total_nouns[i].replace('이용자', '')
    total_nouns[i] = total_nouns[i].replace('플레이', '')
    total_nouns[i] = total_nouns[i].replace('이번', '')
    total_nouns[i] = total_nouns[i].replace('지난해', '')
    total_nouns[i] = total_nouns[i].replace('전년', '')
    total_nouns[i] = total_nouns[i].replace('콘텐츠', '')
    total_nouns[i] = total_nouns[i].replace('출시', '')
    total_nouns[i] = total_nouns[i].replace('서비스', '')
    total_nouns[i] = total_nouns[i].replace('모바일', '')
    total_nouns[i] = total_nouns[i].replace('제공', '')
    total_nouns[i] = total_nouns[i].replace('예정', '')
    a = total_nouns[i].split(' ')
    data = ''
    for j in a :
        if len(j) >= 2 :
            data = data+' '+j
    total_nouns[i] = data
    
CV_vectorizer = CountVectorizer()
X = CV_vectorizer.fit_transform(total_nouns)

num_topics = 6

lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
lda.fit(X)

CV_feature_names = CV_vectorizer.get_feature_names_out()

topic_keywords = []
topic_index = 1
num_word = 7

for topic_idx, topic in enumerate(lda.components_):
    top_keywords_idx = topic.argsort()[::-1][:num_word]
    top_keywords = [CV_feature_names[i] for i in top_keywords_idx]
    top_keywords.insert(0, 'Topic %d' %(topic_index))
    topic_index = topic_index+1
    topic_keywords.append(top_keywords)

df_topic_keywords = pd.DataFrame(topic_keywords, columns=["Topic"]+ [f"Keyword {i+1}" for i in range(num_word)])

활용하기

제가 개인적으로 토픽 모델링과 다른 시각화를 활용하여 네이버 기사를 분석한 예시입니다.

예시에서 활용한 파이 차트 및 바 차트, 네트워트 분석은 다음 포스팅에서 진행하겠습니다!!

한글 데이터로 워드클라우드를 만드는 방법이 궁금하신 분들은 아래 링크를 확인해주세요:)

[데이터 분석] 한글로 워드클라우드 만들기 (feat.네이버 뉴스 크롤링)

yhj9855.com

코드에 대해 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다.

★읽어주셔서 감사합니다★

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Python(파이썬) > Data Analysis(데이터 분석)' 카테고리의 다른 글

[데이터 분석] 한글로 워드클라우드 만들기 (feat.네이버 뉴스 크롤링) (72)	2024.01.25

PREV 이전 1 2 NEXT 다음

잡덕의 코딩