예니의 코딩일기

  • 홈
  • 태그
  • 방명록

_REP 1

Web Scraping 기초 1-4. 윤리적으로 웹 스크래핑, 크롤링 진행하기

강의 "웹 스크래핑"은 웹 페이지들로부터 원하는 정보를 추출하는 것을 말합니다. "웹 크롤링"은 크롤러(Crawler)를 이용해서 웹 페이지의 정보를 인덱싱하는 것을 말합니다. HTTP 요청할 때 고려 사항 웹 스크래핑/크롤링을 통해 달성하고자 하는 목적 웹 스크래핑/크롤링이 서버에 미치는 영향 로봇 배제 프로토콜(Robot Exclusion Protocol, REP) # 모든 user-agent 접근 불허 User-agent: * Disallow: / # 모든 user-agent 접근 허용 User-agent: * Allow: / # 특정 user-agent 접근 불허 User-agent: Name Disallow: / "robots.txt"는 웹 사이트 및 웹 페이지를 수집하는 로봇들의 무단 접근을 ..

데브코스 TIL/Web Scrapping 2023.10.24
이전
1
다음
더보기
프로필사진

프로그래머스 데이터 엔지니어링 데브코스 2기 수강생 입니다

  • 전체보기 (153)
    • 데브코스 TIL (152)
      • [프로젝트] (3)
      • Python (1)
      • 자료구조, 알고리즘 (26)
      • HTML, CSS (2)
      • Web Scrapping (15)
      • Django, API (7)
      • SQL (6)
      • AWS 클라우드 (17)
      • 데이터 파이프라인, Airflow (17)
      • Docker (9)
      • DBT (4)
      • 빅데이터, 스트리밍 데이터 처리 (32)
      • Machine Learning (4)

Tag

_AWS, _Docker, _Kafka, _설치, _머신러닝, _dbt, _문제풀이, _Airflow, _실습, 프로그래머스, 프로그래머스데브코스, _HTML, _Spark, _sql, _SparkSQL, _소개, _selenium, 프로그래머스데브코스데이터엔지니어링, _redshift, _DAG,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바