'_REP' 태그의 글 목록

Web Scraping 기초 1-4. 윤리적으로 웹 스크래핑, 크롤링 진행하기

강의 "웹 스크래핑"은 웹 페이지들로부터 원하는 정보를 추출하는 것을 말합니다. "웹 크롤링"은 크롤러(Crawler)를 이용해서 웹 페이지의 정보를 인덱싱하는 것을 말합니다. HTTP 요청할 때 고려 사항 웹 스크래핑/크롤링을 통해 달성하고자 하는 목적 웹 스크래핑/크롤링이 서버에 미치는 영향 로봇 배제 프로토콜(Robot Exclusion Protocol, REP) # 모든 user-agent 접근 불허 User-agent: * Disallow: / # 모든 user-agent 접근 허용 User-agent: * Allow: / # 특정 user-agent 접근 불허 User-agent: Name Disallow: / "robots.txt"는 웹 사이트 및 웹 페이지를 수집하는 로봇들의 무단 접근을 ..

데브코스 TIL/Web Scrapping 2023.10.24

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

예니의 코딩일기

_REP 1

티스토리툴바