본문 바로가기
기타

웹 크롤링과 스크래핑의 차이

by BK0625 2023. 5. 15.
반응형

웹 크롤링과 웹 스프래핑은 단어도 비슷하고 기본적으로 유사한 의미를 지니다보니 혼용되어 많이 쓰기도 하고 어떤 단어를 어떤 상황에 써야하나 헷갈릴 때도 많다. 이 두가지의 차이점을 알아보자.

 

웹 크롤링

웹 크롤링은 자동적으로 웹 상의 URL을 탐색해 반복적으로 링크를 찾고 가져오는 과정이다. 웹 크롤링이 아닌 스파이더링이라는 단어를 사용할 때도 있다고 한다. 웹 크롤러라는 단어도 있는데 영어 단어에서도 알 수 있듯이 웹 크롤링을 실행하는 하나의 프로그램을 의미한다. 정리하자면 웹 상에 존재하는 데이터를 자동적으로 탐색할 수 있도록 하는 시스템이 웹 크롤링이라고 할 수 있다.

 

 

웹 스크래핑

웹 크롤링은 데이터를 단순히 탐색하는 행위를 의미한다고 보면 된다. 웹 스크래핑은 거기서 좀 더 나가서 웹 사이트 상에서 원하는 정보를 추출하는 방법을 의미한다. 즉 미리 정한 특정 웹 페이지에서 브라우저를 탐색하고 원하는 정보만을 따로 추출하도록 구성된다는 것이다. 그래서 웹 스크래핑을 웹 데이터 추출이라고도 부른다고 한다.

 

 

그럼 차이는?

웹 크롤링과 웹 스크래핑은 모두 정보를 추출한다라는 공통점이 있다. 하지만 중요한 차이점은 웹 크롤링은 타겟페이지가 없지만 웹 스크래핑은 타겟페이지가 존재한다. 웹 크롤링은 웹 상에 존재하는 데이터를 자동적으로 탐색하는 프로그램이고(즉 탐색을 먼저하고 그 다음에 원하는 정보를 가져옴) 웹 스크래핑은 특정 사이트에서 원하는 정보를 추출하기 위한 것이니 당연하다. 즉 웹 스크래핑은 미리 특정 웹페이지를 정해놓는다. 또 웹 크롤링은 중복 제거가 필수적인데 굳이 중복된 데이터를 가져와서 분류를 어렵게 할 필요가 없기 때문이다. 그렇기 때문에 웹 크롤링도 수집한 웹 페이지가 중복되지 않도록 다른 색인을 남긴다.

 

주의점

웹 크롤링은 많은 부분에서 사용되고 있는데 경우에 따라 불법으로 간주되는 경우가 있다. 행위 자체는 불법이 아니지만 

https://www.etnews.com/20200211000365

 

여기어때, 야놀자 DB 무단수집 위법 판결…심명섭 전 대표 1심 집유

위드이노베이션(여기어때)가 경쟁업체 야놀자 숙박정보 데이터베이스(DB)를 무단 크롤링(분산 데이터 추출 기술)한 행위가 위법하다는 법원 판단이 나왔다. 서울중앙지법 형사5단독 신민석 판사

www.etnews.com

 

이런 사례처럼 수집한 데이터를 상업적으로 이용하거나

 

혹은 웹 크롤링을 통해 상대 서버에 문제를 일으킨 경우에 불법으로 처벌 받을 수도 있다고 하니 주의가 필요하다. 기본적으로 모든 웹 사이트들은 자동화 프로그램에 대한 규제 여부를 명시하고 있으니 꼭 확인을 하고 주의해서 사용해야된다.(잘못 사용하면 IP가 차단되거나 기타 조치가 취해질수도 있다.)

반응형