반응형
- 스크랩핑 : 데이터를 많이 모으는 작업
- 크롤링 : 데이터를 정제하고 원하는 형태로 가공하는 작업
웹 크롤링이란?
- 데이터를 많이 모아서, 원하는 output으로 정제 및 가공하는 작업
- 빅데이터 분야에서 많이 활용되는 기술
설명
- 크롤링할 타겟 웹 페이지 알기
- 해당 웹 페이지의 '주소'를 알기 ==> "URL"
- 말 그대로 해당 URL은 "페이지"로 구성되어있음
- 개발자가 페이지를 코드로 작성하면, 웹 브라우저라는 소프트웨어가 코드(페이지)를 해석해서 UI(그래픽)로 구현해서 보여줌
- 웹 페이지 정보를 JAVA에서는 Document라고 함
- 웹 페이지 정보(Document) 타입은 JAVA에서 기본제공하지 않음
- 외부로부터 Document를 지원해줄수있는 .jar파일을 추가하기 == ojdbc.jar
- 추가한 자료이름 ==> jsoup.jar
- 자바에서 웹크롤링할 수 있는 library 파일 : https://jsoup.org/download
- 웹 페이지는 "요소"들로 이루어져있음
- 요소 == element, 엘리먼트, 태그, <>
- 웹 페이지를 코딩하는 언어는 HTML
- HTML : 마크업 언어 (이 마크업이 <> 태그로 이루어져있음)
- 태그의 종류 : <html>, <body>, <title>, <div>, <span>, ...
- 내가 가져올 태그가 어느 태그의 데이터인지 확인
- 태그(요소)들은 "속성"을 가질 수 있음
실습
- 웹에서 샘플될만한 데이터를 끌어와서
- DB에 저장하고
- JAVA에서 Client로 console에 전체목록출력을 통해 샘플 데이터들을 출력
반응형
'개발 > 개발' 카테고리의 다른 글
| 웹의 앞면, 프론트엔드 개발이란 무엇인가? (0) | 2023.07.10 |
|---|