본문 바로가기

Backend/JAVA_Crawling3

03. JAVA를 이용한 네이버 영화 평점 크롤링 (AJAX가 적용된 사이트, 크롤링 결과 파일로 저장하기) ○ 네이버 영화 평점 크롤링하기 - 범죄도시2 관람객 평점 크롤링하기 - 한페이지에 10건씩 총 2404건의 평점, 총 25페이지 크롤링 필요 - AJX로 만들어서, 리뷰 페이지 넘겨도 URL안바뀜 > 소스 분석 필요 ○ 네이버 영화 평점 소스 분석 1) URL 분석 - 크롬 개발자 도구를 이용해서 에 걸려있는 URL로 넘어가니 관람객 리뷰만 있는 페이지로 이동 - https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=192608 1페이지 > https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=164122&page=1 2페이지 > https://movie.naver.com/m.. 2022. 6. 13.
02. JAVA를 이용한 크롤링 (콘솔창에 출력) ○ 내 블로그 포스팅 제목 크롤링하기 1) 1단계 : 페이지 1에 있는 내용 전체 크롤링 (https://binscode.tistory.com/category) import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class Test01_crawling { public static void main(String[] args) { try { String URL="https://binscode.tistory.com/category"; Document doc=Jsoup.connect(URL).get(); System.out.println(doc.toString()); }catch (Exception e) { System.out.println("크롤링.. 2022. 6. 11.
01. JAVA를 이용한 크롤링(Crawling, JSOUP) ○ 크롤링(crawling) - 크롤링(crawling), 스크레이핑(scraping) - 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위 - 로봇 배제 표준(robots.txt) : 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약 - 크롤링 시 주의할 점 : 크롤링 해도 된다고 해서 저작권 문제까지 자유로운 것은 아님! 신문기사, 책, 논문, 사진 등의 자료들은 저작권에 특히 주의해야함 ○ JSOUP - JSOUP 라이브러리 : 자바로 만들어진 HTML parser DOM 구조를 추적하거나 CSS 선택자를 사용하여 데이터를 찾아 추출할 수 있다 HTML 문서에 저장된 데이터를 구문 분석, 추출 및 조작하도록 설계된 오픈 소스 - JSOUP 다운로드: 다운로드 링크 > jsoup-1... 2022. 6. 10.