Python Crawling (파이썬 크롤링)

프로그래밍 스킬 되살리기

Python Crawling (파이썬 크롤링) - ft. Mongodb

grtnomad 2023. 1. 2. 22:04

패키지(파이썬의 라이브러리 같은 것) 설치

1. request 설치 (파일>설정>프로젝트>인터프리터) 후 import

import requests # requests 라이브러리 설치 필요

r = requests.get(https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=pnt&date=20210829)
rjson = r.json()

2. beautifulsoup (위에서 가져온 html에서 제목을 쉽게 찾을 수 있게 해주는 패키지 bs4) 설치

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=pnt&date=20210829',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

# 코딩 시작

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=pnt&date=20210829',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

# 코딩 시작
#old_content > table > tbody > tr:nth-child(2) > td.title > div > a
#old_content > table > tbody > tr:nth-child(3) > td.title > div > a
#old_content > table > tbody > tr:nth-child(4) > td.title > div > a

# title = soup.select_one('#old_content > table > tbody > tr:nth-child(2) > td.title > div > a')
# print(title.text)
movies = soup.select('#old_content > table > tbody > tr')
for movie in movies:
    a=movie.select_one('td.title > div > a')
    if a is not None:
        print(a.text)

==> request로 Naver 영화 페이지 가져와서 BeautifulSoup으로 html 가져오고

영화 타이틀 부분에 대고 우클릭 '검사' 선택 > 코드 copy selector 해서 붙여넣으면 아래와 같이 됨

#old_content > table > tbody > tr:nth-child(2) > td.title > div > a
#old_content > table > tbody > tr:nth-child(3) > td.title > div > a
#old_content > table > tbody > tr:nth-child(4) > td.title > div > a

위와 같이 print(a.text) 하면 영화 제목만 찍힘

아래: 영화 순위, 제목, 평점 크롤링

import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=pnt&date=20210829', headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

# copy selector
# 순위
# old_content > table > tbody > tr:nth-child(2) > td:nth-child(1) > img
# 제목
# old_content > table > tbody > tr:nth-child(2) > td.title > div > a
# old_content > table > tbody > tr:nth-child(3) > td.title > div > a
# 평점
# old_content > table > tbody > tr:nth-child(2) > td.point

movies = soup.select('#old_content > table > tbody > tr')
for movie in movies:
    a = movie.select_one('td.title > div > a')
    if a is not None:
       title= a.text
       rank = movie.select_one('td:nth-child(1) > img')['alt']
       star_cnt = movie.select_one('td.point').text
       print(rank,title,star_cnt)

아래: 크롤링 해온 것 데이터베이스에 넣기

데이터 베이스 크게 두 종류

1) RDBMS(SQL) - ex. MS-SQL, My-SQL (정형화)

2)No-SQL - ex. MongoDB (딕셔너리 형태. flexible) - 시작하는 단계의 회사들이 씀

-요즘 트렌드는 DB를 컴에 설치하지 않고 클라우드 이용.(유저 몰리는 경우, 백업, 모니터링에 용이)

MongoDB 가입하고 아틀라스 컴퓨터를 하나 배정받고 거기 접속할 수 있는 아이디(디비 유저네임), 패스워드 만들기

파이썬으로 DB 접속해 보기

파이몽고, DNS파이썬 필요, 패키지 설치 후

from pymongo import MongoClient
client = MongoClient('mongodb+srv://dbUser:<password>@cluster0.7qlimrh.mongodb.net/?retryWrites=true&w=majority')
db = client.dbsparta

위 URL 자리에 몽고디비 홈피에서 Connet to Cluster 할 때 "Add your connection string into your application code" 라며 나오는 스트링 복붙. dbUser:<password>는 본인 걸로 바꾸고, ? 앞에 Cluster0 이라고 클러스터 이름 넣어주고

몽고디비 코드 요약

from pymongo import MongoClient
client = MongoClient('mongodb+srv://dbUser:!a369258@cluster0.7qlimrh.mongodb.net/Cluster0?retryWrites=true&w=majority')
db = client.dbsparta

# 저장 - 예시
doc = {'name':'bobby','age':21}
db.users.insert_one(doc)

# 한 개 찾기 - 예시
user = db.users.find_one({'name':'bobby'})

# 여러개 찾기 - 예시 ( _id 값은 제외하고 출력)
all_users = list(db.users.find({},{'_id':False}))

# 바꾸기 - 예시
db.users.update_one({'name':'bobby'},{'$set':{'age':19}})

# 지우기 - 예시
db.users.delete_one({'name':'bobby'})

맨위 세 줄을 영화 제목 가져오는 파이썬 파일에 복붙 (import) 후

변수들로 딕셔너리 만들어 디비에 인써트

doc={
    'title':title,
    'rank': rank,
    'star_cnt':star_cnt
}
db.movies.insert_one(doc)

크롤링 과제: 지니뮤직 차트에서 1~50위 곡의 순위, 제목, 가수명 가져오기

- 제목 앞에 19금 아이콘이 있는 경우 정렬이 흐트러져서 if문으로 해결

import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://www.genie.co.kr/chart/top200?ditc=M&rtm=N&ymd=20210701', headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

# 순위
# body-content > div.newest-list > div > table > tbody > tr:nth-child(1) > td.number
# 타이틀
# body-content > div.newest-list > div > table > tbody > tr:nth-child(1) > td.info > a.title.ellipsis
# body-content > div.newest-list > div > table > tbody > tr:nth-child(2) > td.info > a.title.ellipsis
# 가수
# body-content > div.newest-list > div > table > tbody > tr:nth-child(15) > td.info > a.artist.ellipsis

songs = soup.select('#body-content > div.newest-list > div > table > tbody > tr')
for song in songs:
    a = song.select_one('td.info > a.title.ellipsis')
    # 제목 앞에 19금 아이콘이 없는 경우와 있는 경우로 나누기
    if song.select_one('td.info > a.title.ellipsis > span') is None:
        title = a.text.strip()
    else:
        span_in = song.select_one('td.info > a.title.ellipsis > span').text
        title = '('+span_in+') '+ a.text.replace(span_in,'').strip()

    rank = song.select_one('td.number').text[0:2].strip()
    artist = song.select_one('td.info > a.artist.ellipsis').text

    print(rank, title, artist)

'프로그래밍 스킬 되살리기' 카테고리의 다른 글

파이썬 가상환경 venv 만들기, 활성화, 비활성화 명령어 (0)	2024.01.15
기초 SQL문 (0)	2023.03.17
서버 만들고 클라이언트와 서버, DB 연결하기 (ft. flask) (1)	2023.01.03
Javascript if문, for문 (0)	2023.01.01
HTML, CSS, Javascript(JQuery, Ajax) (0)	2023.01.01

현재글Python Crawling (파이썬 크롤링) - ft. Mongodb

appagent, LLM, SW캠프후기, PM부트캠프후기, AI, 블루투스 아이콘, SW캠프솔직후기, 문화상대주의, 지피티, IT부트캠프후기, SW캠프단점, 챗지피티, 생성형ai, 인공지능, SW캠프장점, JavaScript, ChatGPT, 로봇프로세스자동화, 프로세스자동화, SW캠프 비전공자 후기,

Today :
Yesterday :

GRTNOMAD