728x90
조금더 편하게 컴퓨터 작업을 하고 업무를 하기 위해서 파이썬을 공부하기로 맘을 먹었어요. 파이썬을 검색하는데 너무 다양한 자료가 나와서 무엇을 해야하나 고민하고 찾아보는데만 일주일이 넘게 소요된 것 같네요. 처음 목표는 웹크롤링을 목표로 잡았고 블로그 자동 포스팅 기능을 구현해보는 것이 목표입니다!
1. 웹크롤링이란?
우리가 사용하고 있는 웹서버상에서 원하는 데이터를 수집하는 프로그램이예요. 예를 들어 특정 키워드를 포함한 뉴스를 스크랩할 수 있으며, 원하는 키워드로 사진을 스크랩할 수 있는 프로그램이라고 보시면 됩니다.
2. 라이브러리
웹크롤링 코딩을 하기 위해서 보통 Beautiful Soup 와 selenium 라이브러리를 사용하게 됩니다. Beautiful Soup는 HTML에서 원하는 데이터를 끌어오는 기능을하며, Selenium은 마우스의 클릭과 키보드 조작 같은 기능으로 데이터에 접근하는 방식입니다. 두 기능을 적절하게 조합하여 사용한다면 웹에서 불가능은 없을 것 같습니다. (보안 자료 제외)
3. 연습하기
(1) 조작 기능을 하기 전에 기초 공사부터 코딩으로 잡아놓습니다. 일단 흔히 까먹을 수 있는 새폴더 만들기 코드입니다.
import os
def create_project_dir(directory):
if not os.path.exists(directory):
print('Creating project' + directory)
os.makedirs(directory)
(2) 데이터를 입력할 txt파일 관련 코드입니다.
def create_datafiles(project_name, base_url):
queue = project_name + 'queue.txt'
crawled = project_name + 'crawled.txt'
if not os.path.isfile(queue):
write_file(queue, 'base_url')
if not os.path.isfile(crawled):
write_file(crawled,'')
def write_file(path, data):
f = open(path, 'w')
f.write(data)
f.close
728x90
'STUDY > programing' 카테고리의 다른 글
파이썬 셀리니엄(Selenium)을 이용해서 웹 클릭하기 (0) | 2021.07.30 |
---|---|
[jquery] input value에 따라 label 숨기기, 보이기 (0) | 2020.11.26 |
python 설치 및 개발환경 설정(atom 에디터 사용) (0) | 2020.03.17 |
이미지 클릭시 새창 팝업 띄우기 (0) | 2019.09.15 |
li 개수에 따라 폭(width) 나누기 (0) | 2019.09.13 |
PHP 이름 *표 마스킹하기 (익명처리) (0) | 2019.05.17 |