Robots.txt: 색인을 쉽게 하는 3가지 방법
- Technical SEO
- 2021. 7. 30.
Robots.txt 란?
Robots.txt는 웹사이트 특정 페이지나 섹션을 크롤링 하거나 막는 검색 엔진 로봇에 지시하는 파일이다. 대부분 주요 검색엔진 구글, 네이버, 다음 등 요청을 한다.
이 글을 읽기 전 웹 구조: 검색엔진 최적화에 중요한 이유 3가지 및 웹 페이지 속도 개선: 5가지 증명된 사이트 로딩 방법 을 먼저 읽어보자.
Robots.txt 중요한 이유는?
대부분 웹사이트에는 Robots 파일이 필요하지 않다.
구글 등 검색엔진 로봇이 중요한 페이지를 찾고 색인을 생성할 수 있기 때문이다.
중요하지 않은 페이지나 다른 페이지의 중복 콘텐츠 경우 자동으로 색인하지 않는다.
하지만, 왜 해당 파일을 사용하는 걸까?
1. 비공개 페이지 차단
사이트에 색인을 생성하고 싶지 않은 페이지가 있다.
예를 들어, 로그인 페이지나 비공개 페이지 등 말한다.
이러한 페이지를 색인을 생성하게 되면 말그대로 정보 노출이다.
경로 차단을 위해서 이럴때 설정하는 것이 중요하다.
검증된 루트만 노출시킴으로써 경로를 차단하는 것이다.
2. 크롤링 버젯 최대화
모든 페이지 색인을 생성하는데 어려움을 겪는 경우 크롤링 버젯 문제가 있을 수 있다.
해당 파일 만들기를 통해 크롤링 차단하면 실제로 중요한 페이지만 수집할 수 있다.
더 자세한 내용은 웹 페이지 크롤링 버젯: 5가지 증명된 콘텐츠 사일로 에서 만나볼 수 있다.
Robots.txt: 색인을 쉽게 하는 3가지 방법
1. Robots.txt 파일 생성
첫 번째 단계는 파일을 만드는 것이다.
메모장에서 만들어서 단순히 복붙 하면 된다.
예시는 아래와 같다.
User-agent: X
Disallow: Y
위 유저 에이전트는 특정 봇이다.
Disallow 부분은 차단하례는 페이지 또는 섹션을 말한다.
User-agent: googlebot
Disallow: /images
위 규칙은 구글봇이 웹사이트의 이미지 폴더에 대한 색인을 생성하지 않도록 한다
User-agent: *
Disallow: /images
위 규칙은 모든 검색엔진 크롤러에게 이미지 폴더를 크롤링 하지 않도록 지시한다.
혹시 모르는 부분이 있다면 구글 가이드를 참고하도록 하자.
그리고 사이트맵 만들기: 구글 웹마스터 도구 쉽게 하는 6가지 방법 읽어보자.
2. Robots.txt 파일 찾기 쉽게 만들기
파일 이있는 경우 이제 실행만 하면 된다.
해당 파일을 모든 기본 디렉토리에 배치하는 것이 좋다.
Robots.txt: 색인을 쉽게 하는 3가지 방법 에서 더 자세히 다루고 있다.
3. 오류 확인
파일을 올바르게 설정하는 것이 중요하다.
잘못 설정하는 경우 전체 색인이 해지될 수 있기 때문이다.
실행 하기 전에 오류를 구글 서치콘솔을 통해 확인할 수 있다.
이 과정에서 인기 콘텐츠: 중복 피하는 5가지 방법 중요하니 참고 해보자.
결론
중요한 이유는 무엇인지, 그리고 어떻게 하면 되는지에 대해서 알아봤다.
사용법을 간단히 정리하자면 아래와 같다.
- Robots.txt 파일 생성
- Robots.txt 파일 찾기 쉽게 만들기
- 오류 확인
더 궁금한 내용이 있다면 테크니컬 SEO: 총 정리 가이드(2024년) 꼭 읽어보자.
더 알아보기
- 에스이오 홈페이지 : 검색엔진 최적화(SEO) FACT만 제공하는 콘텐츠 페이지.