티스토리 뷰
SoftWare/JAVA
JAVA - HttpURLConnection+parameter, getHttpHTML, 크롤러(crawler)
White Whale 2016. 2. 25. 17:46728x90
오늘은 웹 크롤러의 기본이 되는
웹페이지의 코드를 가져오는 URL코드에 대해서 알아보겠습니다.
HTTP 프로토콜을 이용해서 웹페이지를 서비스하는 방식에는 GET 또는 POST방식이 있습니다.
마찬가지로 저희가 java코드로 웹페이지의 소스를 파싱할려면
위 방식에 알맞는 코드를 사용해야합니다.
1. GET
GET방식은 페이지의 이동시 주소창에 Parameter가 들어있습니다.
http://PPD_ML/run_ga2.jsp?input_file_name=inp_file1004.txt
위와 같은 주소처럼 사용자가 주소를 알면 그냥 사면 되지만 상황에 따라 Parameter를 다르게 하여 파싱하고 싶다면 추가적인 작업을 해야합니다.
PS) 코드 중 param1=%s¶m2=%s 부분이 업로드중 계속 깨지네요 . 복수의 Parameter 처리 시 &로 묶습니다.
2. POST
3. Full Code
추가로 인증서가 포함된 페이지들은 인증서 없이는 위 코드들이 동작하지 않습니다. 만약 인증서가 포함된 페이지의 코드를 얻고 싶으신 분들은 http://twinw.tistory.com/43 의 글을 읽어 주시기 바랍니다.
'SoftWare > JAVA' 카테고리의 다른 글
Java 입출력 - Scanner (0) | 2016.05.06 |
---|---|
JAVA - conn.getInputStream() Error - javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building failed (0) | 2016.02.25 |
이클립스 java 프로젝트에 jar파일 가져오기 (0) | 2016.02.14 |
JAR파일 생성하기, Java Export하기 (0) | 2016.02.13 |
Java 난독화 프로그램 - ProGuard(설치 및 사용법) (3) | 2016.02.13 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 아두이노
- 파일 입출력
- 인텐트
- vim 설치
- counter
- 서버
- jad
- c언어
- php
- Res
- Java Decompiler
- 유전
- java url
- 카운터
- Notification
- 알고리즘
- java
- Service
- java 파일 입출력
- 포켓몬 고
- 안드로이드
- 자바 입출력
- 포켓몬 Go
- 유전 알고리즘
- 파일입출력
- 5582
- android
- 테라펀딩 #투게더펀딩 #P2P투자 #부동산 소액 투자 #카카오 #토스
- vim
- LISTVIEW
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함