웹 크롤링과 웹 스프래핑은 단어도 비슷하고 기본적으로 유사한 의미를 지니다보니 혼용되어 많이 쓰기도 하고 어떤 단어를 어떤 상황에 써야하나 헷갈릴 때도 많다. 이 두가지의 차이점을 알아보자.
웹 크롤링
웹 크롤링은 자동적으로 웹 상의 URL을 탐색해 반복적으로 링크를 찾고 가져오는 과정이다. 웹 크롤링이 아닌 스파이더링이라는 단어를 사용할 때도 있다고 한다. 웹 크롤러라는 단어도 있는데 영어 단어에서도 알 수 있듯이 웹 크롤링을 실행하는 하나의 프로그램을 의미한다. 정리하자면 웹 상에 존재하는 데이터를 자동적으로 탐색할 수 있도록 하는 시스템이 웹 크롤링이라고 할 수 있다.
웹 스크래핑
웹 크롤링은 데이터를 단순히 탐색하는 행위를 의미한다고 보면 된다. 웹 스크래핑은 거기서 좀 더 나가서 웹 사이트 상에서 원하는 정보를 추출하는 방법을 의미한다. 즉 미리 정한 특정 웹 페이지에서 브라우저를 탐색하고 원하는 정보만을 따로 추출하도록 구성된다는 것이다. 그래서 웹 스크래핑을 웹 데이터 추출이라고도 부른다고 한다.
그럼 차이는?
웹 크롤링과 웹 스크래핑은 모두 정보를 추출한다라는 공통점이 있다. 하지만 중요한 차이점은 웹 크롤링은 타겟페이지가 없지만 웹 스크래핑은 타겟페이지가 존재한다. 웹 크롤링은 웹 상에 존재하는 데이터를 자동적으로 탐색하는 프로그램이고(즉 탐색을 먼저하고 그 다음에 원하는 정보를 가져옴) 웹 스크래핑은 특정 사이트에서 원하는 정보를 추출하기 위한 것이니 당연하다. 즉 웹 스크래핑은 미리 특정 웹페이지를 정해놓는다. 또 웹 크롤링은 중복 제거가 필수적인데 굳이 중복된 데이터를 가져와서 분류를 어렵게 할 필요가 없기 때문이다. 그렇기 때문에 웹 크롤링도 수집한 웹 페이지가 중복되지 않도록 다른 색인을 남긴다.
주의점
웹 크롤링은 많은 부분에서 사용되고 있는데 경우에 따라 불법으로 간주되는 경우가 있다. 행위 자체는 불법이 아니지만
https://www.etnews.com/20200211000365
여기어때, 야놀자 DB 무단수집 위법 판결…심명섭 전 대표 1심 집유
위드이노베이션(여기어때)가 경쟁업체 야놀자 숙박정보 데이터베이스(DB)를 무단 크롤링(분산 데이터 추출 기술)한 행위가 위법하다는 법원 판단이 나왔다. 서울중앙지법 형사5단독 신민석 판사
www.etnews.com
이런 사례처럼 수집한 데이터를 상업적으로 이용하거나
혹은 웹 크롤링을 통해 상대 서버에 문제를 일으킨 경우에 불법으로 처벌 받을 수도 있다고 하니 주의가 필요하다. 기본적으로 모든 웹 사이트들은 자동화 프로그램에 대한 규제 여부를 명시하고 있으니 꼭 확인을 하고 주의해서 사용해야된다.(잘못 사용하면 IP가 차단되거나 기타 조치가 취해질수도 있다.)
'기타' 카테고리의 다른 글
[GitHub] Github error: src refspec main does not match any 해결법 (0) | 2023.11.22 |
---|---|
[NodeJS] NVM으로 Node 버전 관리하기 (0) | 2023.09.01 |
익숙함에 대해서 (0) | 2023.04.12 |
IPP 일학습병행 솔직 담백 후기(6) 지원금 총 정리 및 내 생각 (5) | 2023.03.21 |
IPP 일학습병행 솔직 담백 후기(5) SW_L5 자격증 (0) | 2023.03.16 |