파이썬 웹 크롤링(Web Crawling) - Basic

웹 크롤러(Web Crawler)는 자동화된 방식으로 웹 페이지들을 탐색하는 컴퓨터 프로그램입니다.
웹 크롤러가 하는 작업을 웹 크롤링(Web Crawling)이라고 부릅니다.

Beautiful Soup

기본 세팅
기본적으로 패키지 import를 통해서 가져오며 html파일을 가져오거나 urllib 혹은 requests 모듈을 통해서 직접 웹에서 소스를 가져올 수도 있습니다.

주요 함수

find() 및 find_all()함수

함수 인자로는 찾고자 하는 태그의 이름, 속성 기타 등등이 들어갑니다.

find_all(name, attrs, recursive, string, limit, **kwargs)
find_all() : 해당 조건에 맞는 모든 태그들을 가져옵니다.

html = urlopen('url 주소') 
soup = BeautifulSoup(html, 'html.parser')
all_divs = soup.find_all("div")
print(all_divs)
------------------
# find_all('태그명', {'속성명' : '값' ...})
ex_id_divs = soup.find('div', {'id' : 'ex_id'})
print(ex_id_divs)

find(name, attrs, recursive, string, **kwargs)
find() : 해당 조건에 맞는 하나의 태그를 가져온다. 중복이면 가장 첫 번째 태그를 가져온다.

html = urlopen('url 주소') 
soup = BeautifulSoup(fp, 'html.parser')
ex_id_divs = soup.find('div', {'id' : 'ex_id'})
print(ex_id_divs)
-----------------
#find('태그명', {'속성명' : '값' ...})
first_div = soup.find("div")
print(first_div)