티스토리 뷰

728x90

오늘은 웹 크롤러의 기본이 되는
웹페이지의 코드를 가져오는 URL코드에 대해서 알아보겠습니다.

HTTP 프로토콜을 이용해서 웹페이지를 서비스하는 방식에는 GET 또는 POST방식이 있습니다.
마찬가지로 저희가 java코드로 웹페이지의 소스를 파싱할려면
위 방식에 알맞는 코드를 사용해야합니다.

1. GET


GET방식은 페이지의 이동시 주소창에 Parameter가 들어있습니다.

http://PPD_ML/run_ga2.jsp?input_file_name=inp_file1004.txt

위와 같은 주소처럼 사용자가 주소를 알면 그냥 사면 되지만 상황에 따라 Parameter를 다르게 하여 파싱하고 싶다면 추가적인 작업을 해야합니다.
PS) 코드 중  param1=%s&param2=%s 부분이 업로드중 계속 깨지네요
 . 복수의 Parameter 처리 시 &로 묶습니다.

 

2. POST


POST방식은 보안상을 위해 Prarmeter를 URL이 아닌 스트림 기반의 데이터 저장공간에 매개변수를 실어 보내는 방식입니다. 따라서 GET과 다르게 주소창에 스트림을 추가하는 것이 아니라  HttpURLConnection에 POST 세팅을 하고 outputsteram에 실어 보내야합니다.
 

 

 

3. Full Code 


 

추가로 인증서가 포함된 페이지들은 인증서 없이는 위 코드들이 동작하지 않습니다. 만약 인증서가 포함된 페이지의 코드를 얻고 싶으신 분들은 http://twinw.tistory.com/43 의 글을 읽어 주시기 바랍니다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함