참고사이트

파이썬 웹 크롤링(Web Crawling) - Basic

웹 크롤러(Web Crawler)는 자동화된 방식으로 웹 페이지들을 탐색하는 컴퓨터 프로그램입니다.
웹 크롤러가 하는 작업을 웹 크롤링(Web Crawling)이라고 부릅니다.

Beautiful Soup

기본 세팅
기본적으로 패키지 import를 통해서 가져오며 html파일을 가져오거나 urllib 혹은 requests 모듈을 통해서 직접 웹에서 소스를 가져올 수도 있습니다.

주요 함수

find() 및 find_all()함수

  • 함수 인자로는 찾고자 하는 태그의 이름, 속성 기타 등등이 들어갑니다.
  • find_all(name, attrs, recursive, string, limit, **kwargs)
    find_all() : 해당 조건에 맞는 모든 태그들을 가져옵니다.
    1
    2
    3
    4
    5
    6
    7
    8
    html = urlopen('url 주소') 
    soup = BeautifulSoup(html, 'html.parser')
    all_divs = soup.find_all("div")
    print(all_divs)
    ------------------
    # find_all('태그명', {'속성명' : '값' ...})
    ex_id_divs = soup.find('div', {'id' : 'ex_id'})
    print(ex_id_divs)
  • find(name, attrs, recursive, string, **kwargs)
    find() : 해당 조건에 맞는 하나의 태그를 가져온다. 중복이면 가장 첫 번째 태그를 가져온다.
    1
    2
    3
    4
    5
    6
    7
    8
    html = urlopen('url 주소') 
    soup = BeautifulSoup(fp, 'html.parser')
    ex_id_divs = soup.find('div', {'id' : 'ex_id'})
    print(ex_id_divs)
    -----------------
    #find('태그명', {'속성명' : '값' ...})
    first_div = soup.find("div")
    print(first_div)