개발/개발

Web Crawling

onivv 2024. 7. 15. 16:38
반응형
  1. 스크랩핑 : 데이터를 많이 모으는 작업
  2. 크롤링 : 데이터를 정제하고 원하는 형태로 가공하는 작업

 

웹 크롤링이란?

  • 데이터를 많이 모아서, 원하는 output으로 정제 및 가공하는 작업
  • 빅데이터 분야에서 많이 활용되는 기술

 

설명

  • 크롤링할 타겟 웹 페이지 알기
  • 해당 웹 페이지의 '주소'를 알기 ==> "URL"
  • 말 그대로 해당 URL은 "페이지"로 구성되어있음
  • 개발자가 페이지를 코드로 작성하면, 웹 브라우저라는 소프트웨어가 코드(페이지)를 해석해서 UI(그래픽)로 구현해서 보여줌
  • 웹 페이지 정보를 JAVA에서는 Document라고 함
  • 웹 페이지 정보(Document) 타입은 JAVA에서 기본제공하지 않음
  • 외부로부터 Document를 지원해줄수있는 .jar파일을 추가하기 == ojdbc.jar
  • 추가한 자료이름 ==> jsoup.jar
  • 자바에서 웹크롤링할 수 있는 library 파일 : https://jsoup.org/download
  • 웹 페이지는 "요소"들로 이루어져있음
  • 요소 == element, 엘리먼트, 태그, <>
  • 웹 페이지를 코딩하는 언어는 HTML
  • HTML : 마크업 언어 (이 마크업이 <> 태그로 이루어져있음)
  • 태그의 종류 : <html>, <body>, <title>, <div>, <span>, ...
  • 내가 가져올 태그가 어느 태그의 데이터인지 확인
  • 태그(요소)들은 "속성"을 가질 수 있음

 

실습

  1. 웹에서 샘플될만한 데이터를 끌어와서
  2. DB에 저장하고
  3. JAVA에서 Client로 console에 전체목록출력을 통해 샘플 데이터들을 출력

 

 

 

반응형

'개발 > 개발' 카테고리의 다른 글

웹의 앞면, 프론트엔드 개발이란 무엇인가?  (0) 2023.07.10