반응형

BeautifulSoup 4

[BeautifulSoup] #4 네이버 뉴스 크롤링하기

오늘은 지난번에 알아본 find 함수를 직접 활용하여 네이버 뉴스 크롤링 예제를 진행해보겠습니다. 아마 뉴스나 주식 같이 특정 정보가 필요할 때 크롤링을 많이 하다 보니 직접 간단하게라도 경험해보는 게 도움이 되지 않을까 싶어 준비했습니다. 네이버 뉴스 크롤링하기 본격적으로 네이버 뉴스를 크롤링하기 전에, 네이버 뉴스의 특성에 관해 알아볼 필요가 있습니다. 현재 네이버 뉴스는 크게 두 가지 형태로 제공되는데요, 첫 번째는 연합뉴스 속보 페이지, 두 번째는 뉴스홈 페이지(언론사별)입니다. 오늘 연습해볼 내용은 연합뉴스 속보 페이지입니다. 뉴스홈 페이지는 최근에 리뉴얼되면서 생겼는데요, 모바일에 초점을 맞춰 반응형 웹으로 만들어져 있습니다. 여기는 좀 크롤링하기 복잡할 것 같아 쉬운 내용부터 진행하고, 나중..

웹/크롤링 2022.02.23

[BeautifulSoup] #3 find 함수 사용법

오늘은 BeautifulSoup에서 제공하는 find 함수 사용법에 관해 알아보도록 하겠습니다. 특히 함수 파라미터 부분을 조금 자세히 살펴볼 예정입니다. 함수 소개 find 함수는 BeautifulSoup 객체가 가지는 함수 중 하나로 주어진 조건에 해당하는 내용을 찾아주는 기능을 합니다. 아직 소개하지 않았지만 BeautifulSoup에는 find_all 함수가 있고, 대부분의 기능은 이 find_all 함수로 수행이 가능합니다. 그렇다면 find 함수는 어디에 필요한 것일까요? find_all 함수는 원하는 태그를 모두 찾아서 리스트 형태로 저장하여 리턴해줍니다. 모든 태그를 다 조사하기 때문에 시간이 조금 오래 소요됩니다. html에는 title과 같이 반드시 하나만 있는 태그도 있는데요, 이런 ..

웹/크롤링 2022.02.16

[BeautifulSoup] #2 파이썬 웹 크롤링 네이버 오류 해결 방법

오늘은 파이썬으로 네이버 웹 크롤링 중 발생하는 오류 해결 방법에 대해 알아보겠습니다. BeautifulSoup를 활용한 강의의 연장선이지만, 파이썬 선에서 발생하는 문제입니다. 일반적으로 웹 크롤링을 한다고 하면, 개인 사이트보다는 네이버나 구글, 다음 등에서 제공하는 특정 정보를 얻기 위한 경우가 많습니다. 오늘 소개할 내용은 그중 하나인 네이버 웹 크롤링 시 많이 발생하는 문제인데요, 지금부터 설명하도록 하겠습니다. 문제 상황 아래는 간단하게 네이버 연합뉴스 내용을 크롤링하도록 한 코드입니다. (다음번에 자세히 소개할 예정입니다.) import requests from bs4 import BeautifulSoup # main if __name__ == "__main__": inputURL = "ht..

웹/크롤링 2022.02.12

[BeautifulSoup] #1 파이썬 웹 크롤링, 웹사이트 제목 크롤링하기

오늘은 파이썬으로 웹 크롤링하는 방법에 대해 알아보고 간단하게 제목을 크롤링해보도록 하겠습니다. 웹 크롤링에 대해 간단히 설명하자면, html 코드를 분석하여 자동으로 데이터를 얻어내는 과정입니다. 여러 가지 언어와 라이브러리가 있지만, 여기에서는 파이썬과 BeautifulSoup를 사용하여 크롤링을 진행해보도록 하겠습니다. 기본 설정 BeautifulSoup 설치하기 콘솔창에 다음 명령어를 입력하여 라이브러리를 설치해줍니다. pip install beautifulsoup4 라이브러리 import하기 기본적인 크롤링 작업을 하기 위해서는 requests와 BeautifulSoup가 필요하므로, 아래와 같이 import해줍니다. import requests from bs4 import BeautifulSo..

웹/크롤링 2022.01.26
반응형