728x90
반응형

안녕하세요. 크롤링에서 가장 첫 포스팅을 네이버 뉴스 크롤링으로 하게 되었어요.
아무래도 바쁜 일상 속에서 매일 뉴스 기사를 파악하는 부분이 시간적으로 힘들었는데,
크롤링하고 데이터 분석을 진행하니까 빠르게 뉴스를 파악할 수 있는게 좋더라구요
 
그래서 네이버 뉴스를 파이썬으로 어떻게 크롤링하고 데이터 분석을 진행했는지 자세한 과정을 포스팅하려고 합니다.
전체적으로 자세하게 진행할 예정이라 파이썬 크롤링 독학을 하시거나, 초심자분들도 잘 따라오실 수 있을 겁니다!
 
해당 포스팅에서는 전체 코드와 결과물 이미지만 첨부합니다.
크롤링의 자세한 과정이 궁금하신 분들은 아래 링크를 봐주시면 됩니다!

 

<자세한 과정 - 1>
https://yhj9855.com/entry/Crawling-%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81-2

 

첫 번째 코드가 뉴스 홈페이지가 달라지면서, 변경되었습니다.

변경된 첫 번째 코드는 아래 링크에서 확인해주세요!

<변경된 첫 번째 코드>

https://yhj9855.com/entry/Crawling-%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81-%EC%BD%94%EB%93%9C-%EB%B3%80%EA%B2%BD

 

[Crawling] 네이버 뉴스 크롤링 코드 변경

안녕하세요! 네이버 뉴스가 24년 1월 25일부터 페이지가 보여주는 방식이 변경되면서, 이전 포스팅에서 진행했던 첫 번째 코드를 사용할 수 없게 되었습니다. 그래서 변경된 페이지에서 적용되는

yhj9855.com

 

<자세한 과정 - 2>
https://yhj9855.com/entry/Crawling-%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81-3

 

[Crawling] 네이버 뉴스 크롤링 - 3

안녕하세요. 오늘은 기존에 작성한 네이버 뉴스 크롤링 코드에서 두 번째 코드의 자세한 크롤링 과정을 포스팅 하겠습니다. 네이버 뉴스 크롤링 전체 코드를 확인하고 싶으신 분들은 아래 링크

yhj9855.com

 

 

저는 개인적으로 게임 뉴스를 매일 파악해야 하기 때문에 게임/리뷰 카테고리 크롤링을 진행하였습니다.
아래 그림의 빨간 네모로 되어있는 기사들의 제목, 내용, 본문 링크를 긁어와서 엑셀로 저장하도록 하겠습니다.

네이버 뉴스 게임/리뷰 카테고리 기사들의 사진

[크롤링 진행 방식]

크롤링은 총 2개의 코드로 진행을 합니다.

  • [첫 번째 코드]
  1. 특정 날짜의 '게임/리뷰' 카테고리의 전체 기사를 긁어옵니다.
  2. 기사의 제목과 링크만 저장하여 하나의 엑셀 파일로 저장합니다.
  • [두 번째 코드]
  1. 첫 번째 코드에서 저장한 엑셀 파일에서 기사의 링크를 가져옵니다.
  2. 각 기사에서 본문의 내용을 가지고 옵니다.
  3. 기사의 제목과 본문, 링크를 저장하여 하나의 엑셀 파일로 저장합니다.

크롤링 총 코드를 2개로 나눈 이유는 오류 처리와 데이터 복원을 빠르게 하기 위해서 입니다.

더보기
  • 오류 처리

크롤링은 HTML 구조 변화에 따라서 잦은 오류가 발생하는 경우가 많습니다.

특정 링크에만 HTML 오류가 발생하는 경우도 있어서 빠르게 오류가 발생한 링크를 찾고 해결하기 위해서 링크 부분을 따로 저장해둡니다.

  • 데이터 복원

크롤링 완료한 데이터가 삭제 되었을 때 링크를 저장한 파일이 남아있다면 데이터를 복원하기 훨씬 빨라집니다.

파일이 2개이다 보니 전부 삭제하는 경우는 잘 발생하지 않아서 데이터 복원할 때 유용하게 사용됩니다.

또한, 크롤링 완료한 데이터의 용량이 커서 링크만 보관하는 경우도 있습니다.


[첫 번째 코드]

첫 번째 코드가 변경되었습니다!

변경된 첫 번째 코드는 아래 링크에서 확인해주세요.

https://yhj9855.com/entry/Crawling-%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81-%EC%BD%94%EB%93%9C-%EB%B3%80%EA%B2%BD

 

[Crawling] 네이버 뉴스 크롤링 코드 변경

안녕하세요! 네이버 뉴스가 24년 1월 25일부터 페이지가 보여주는 방식이 변경되면서, 이전 포스팅에서 진행했던 첫 번째 코드를 사용할 수 없게 되었습니다. 그래서 변경된 페이지에서 적용되는

yhj9855.com

전체 코드 (변경됨)

from bs4 import BeautifulSoup
import requests
import datetime
from datetime import datetime as d
import pandas as pd
import time
import openpyxl
from openpyxl import *

link = 'https://news.naver.com/main/list.naver?mode=LS2D&sid2=229&sid1=105&mid=shm&date='
# 스크랩 하고 싶은 날짜를 년도월일 나열
# 날짜를 쉽게 바꾸기 위해 date를 따로 선언
date = '20240104'

# 메인 링크는 링크에 날짜가 붙은 구조이기 때문에 이렇게 작성해준다.
main_link = link + date
# number: 기사의 수, title: 기사 제목, link: 기사 링크 
Main_link = pd.DataFrame({'number' : [], 'title' : [], 'link' : []})

# 네이버 뉴스는 header를 지정해주지 않으면 접근 오류를 발생시키기 때문에 header를 설정
respose = requests.get(main_link, headers={'User-Agent':'Moailla/5.0'})

# 네이버 뉴스는 동적 페이지가 없기 때문에 Beautifulsoup으로 진행
html = respose.content
soup = BeautifulSoup(html, 'html.parser')
Page = soup.find_all('a', {'class' : 'nclicks(fls.page)'})

try :
    # 페이지가 한 페이지 밖에 없을 경우에는 오류가 발생
    end_page = Page[-1].text
except :
    end_page = 1

number = 0
# 페이지를 넘기는 부분
for i in range(1, int(end_page)+1) :
    page_link = main_link + '&page=' + str(i)
    respose = requests.get(page_link, headers={'User-Agent':'Moailla/5.0'})
    html = respose.content
    soup = BeautifulSoup(html, 'html.parser')
    
    # 기사들의 정보가 담겨져 있는 곳
    Info = soup.find_all('dt')
    # 각 기사의 제목과 링크를 추출
    for info in Info :
        title = info.find('a').text.strip()
        # 기사가 아닌 다른 부분이 섞여 들어오는 경우를 제외
        if title == '' :
            continue
        link = info.find('a')["href"]
        # number는 0부터 시작하기 때문에 1을 더해줌
        li = [number+1, title, link]
        Main_link.loc[number] = li
        number = number+1

# 엑셀 파일이 헷갈리지 않기 위해 엑셀 이름에 날짜를 넣음
excel_name = 'news_' + date + '.xlsx'
with pd.ExcelWriter(excel_name) as writer :
    Main_link.to_excel(writer, sheet_name='링크', index=False)

결과물

[두 번째 코드]

전체 코드

from bs4 import BeautifulSoup
import requests
import datetime
from datetime import datetime as d
import pandas as pd
import time
import openpyxl
from openpyxl import *
import time     
import math
import os
import urllib.request
import urllib

# 첫 번째 코드에서 저장한 뉴스의 링크들이 담긴 파일
link = pd.read_excel('news_20240104.xlsx')
# 엑셀 파일이 헷갈리지 않게 최종 결과파일에도 날짜를 붙여줌
excel_name = 'news_detail_20240104.xlsx'
Main_link = list(link['link'])
# number: 기사의 수, title: 기사의 제목, information: 본문 내용, link: 기사 링크
Information = pd.DataFrame({'number' : [], 'title' : [], 'information' : [], 'link' : []})
# 본문 내용만 추가하면 되기 때문에 데이터 프레임에 미리 내용을 담아줌
Information['number'] = link['number']
Information['title'] = link['title']
Information['link'] = link['link']
information = []

for main_link in Main_link :
	# 기사가 전체적으로 2개의 구조를 가지고 있음
    # 하나의 구조를 기준으로 삼고, 해당 부분에서 오류가 발생하면 다음 구조의 기사로 판단
    try :
        response = requests.get(main_link, headers={'User-Agent':'Moailla/5.0'})
        if response.status_code == 200 :
            html = response.content
            soup = BeautifulSoup(html, 'html.parser')
            # 기사의 본문 내용만 담고 있는 부분
            info = soup.find('div', {'id' : 'newsct_article'}).text.strip()
            # 기사 내용 데이터 분석을 위해서 줄바꿈을 띄어쓰기로 변경
            info = info.replace('\n', '')
            information.append(info)
    except :
    	# 다른 구조의 기사 크롤링 코드
        # 여기서 오류가 나는 경우는 게임/리뷰 기사가 아닌 다른 카테고리의 기사가 포함되는 경우가 있기 때문
        try :
            response = requests.get(main_link, headers={'User-Agent':'Moailla/5.0'})
            if response.status_code == 200 :
                html = response.content
                soup = BeautifulSoup(html, 'html.parser')
                # 기사의 본문 내용을 담고 있는 부분
                info = soup.find('div', {'id' : 'newsEndContents'}).text.strip()
                info = info.replace('\n', '')
                # 해당 구조의 기사는 기사의 정보가 본문과 무조건 같이 존재
                # 기자의 정보 부분은 필요가 없기 때문에 기자의 정보의 기준점이 되는 부분을 찾음
                # 기자의 정보 기준이 기사제공이라는 단어이기 때문에 그 이후는 삭제
                end = info.index('기사제공')
                info = info[:end]
                information.append(info)
        # 아예 다른 카테고리의 기사가 들어올 경우에는 정보를 담지 않는 것으로 판단
        except Exception as e :
            info = ''
            information.append(info)
            # 오류가 발생하는 이유와 발생하는 링크를 출력하여 오류 확인
            #print(e)
            #print(main_link)

Information['information'] = information

with pd.ExcelWriter(excel_name) as writer :
    Information.to_excel(writer, sheet_name='결과값', index=False)

결과물

 

뉴스 크롤링 데이터를 이용한 워드클라우드 포스팅은 아래에서 확인해주세요!

https://yhj9855.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%ED%95%9C%EA%B8%80%EB%A1%9C-%EC%9B%8C%EB%93%9C%ED%81%B4%EB%9D%BC%EC%9A%B0%EB%93%9C-%EB%A7%8C%EB%93%A4%EA%B8%B0-feat%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81

 

[데이터 분석] 한글로 워드클라우드 만들기 (feat.네이버 뉴스 크롤링)

안녕하세요. 오늘은 크롤링 데이터로 워드클라우드(wordcloud)를 만드는 방법에 대해 포스팅 하겠습니다. 크롤링 데이터는 네이버 뉴스 크롤링을 사용할 예정입니다! 네이버 뉴스 크롤링 과정이

yhj9855.com

 

뉴스 크롤링 데이터를 이용한 토픽 모델링 포스팅은 아래에서 확인해주세요!

https://yhj9855.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%ED%95%9C%EA%B8%80-%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%86%A0%ED%94%BD-%EB%AA%A8%EB%8D%B8%EB%A7%81-%EC%A7%84%ED%96%89%ED%95%98%EA%B8%B0

 

[데이터 분석] 한글 데이터 토픽 모델링 진행하기

안녕하세요! 오늘은 한글 데이터로 토픽 모델링(topic modeling)을 하는 방법에 대해 포스팅 하겠습니다. 한글 데이터는 네이버 뉴스 크롤링 데이터를 사용할 예정입니다. 네이버 뉴스 크롤링 과정

yhj9855.com

뉴스 크롤링 데이터를 이용한 네트워크 분석은 다음 포스팅에서 진행하겠습니다!
 
코드에 대해 궁금한 부분이 있으신 분들은 댓글로 남겨주시면, 답변 드리도록 하겠습니다

★읽어주셔서 감사합니다★

728x90
반응형

+ Recent posts