(Web Crawling) - Basic
파이썬 웹 크롤링(Web Crawling) - Basic
웹 크롤러(Web Crawler)
는 자동화된 방식으로 웹 페이지들을 탐색하는 컴퓨터 프로그램입니다.
웹 크롤러가 하는 작업을 웹 크롤링(Web Crawling)
이라고 부릅니다.
Beautiful Soup
기본 세팅
기본적으로 패키지 import를 통해서 가져오며 html파일을 가져오거나 urllib
혹은 requests
모듈을 통해서 직접 웹에서 소스를 가져올 수도 있습니다.
주요 함수
find() 및 find_all()함수
- 함수 인자로는 찾고자 하는 태그의 이름, 속성 기타 등등이 들어갑니다.
- find_all(name, attrs, recursive, string, limit, **kwargs)
find_all() : 해당 조건에 맞는 모든 태그들을 가져옵니다.1
2
3
4
5
6
7
8html = urlopen('url 주소')
soup = BeautifulSoup(html, 'html.parser')
all_divs = soup.find_all("div")
print(all_divs)
------------------
# find_all('태그명', {'속성명' : '값' ...})
ex_id_divs = soup.find('div', {'id' : 'ex_id'})
print(ex_id_divs) - find(name, attrs, recursive, string, **kwargs)
find() : 해당 조건에 맞는 하나의 태그를 가져온다. 중복이면 가장 첫 번째 태그를 가져온다.1
2
3
4
5
6
7
8html = urlopen('url 주소')
soup = BeautifulSoup(fp, 'html.parser')
ex_id_divs = soup.find('div', {'id' : 'ex_id'})
print(ex_id_divs)
-----------------
#find('태그명', {'속성명' : '값' ...})
first_div = soup.find("div")
print(first_div)
Comment