Techinity(테크니티)/인공지능과 Techinity(테크니티)

[초보 가이드] robots.txt 뜻과 기능, 규칙 조정하기, 파일을 찾는 쉬운방법

Alex&Lily 2024. 2. 26. 05:40
728x90
300x250

 


Robots.txt
는 검색 엔진이 웹 사이트의 어느 부분을 방문하고
색인을 생성할 수 있는지 알려주는 이정표와 같습니다
.
robots.txt 파일에 대해 
  1. robots.txt 파일이 무엇인지 뜻을 이해하기
  2.  robots.txt 파일 규칙 만들기, 조정하기
  3. robots.txt 파일에 대해 알아야 할 사항과 
  4. robots.txt 파일로 차단된 기능을 내 사이트에서 찾는
     단계 별 지침에 대해 알아 보겠습니다. 


Robots.txt  뜻과 기능 이해하기

1. Robots.txt 뜻?

    Robots.txt란?

    사이트를 크롤링하여 정보를 수집하는 검색 로봇에게
    정보 수집을 해도 되는 페이지가 무엇인지,
    해서는 안 되는 페이지가 무엇인지 구별시키는 역할을 하는
    텍스트 파일입니다
.


2. 예를 들어 내 사이트가 학교라면
    그네나, 시소가 있는 운동장이나 놀이터와  같은 곳은 
    누구나 플레이할 수 있도록 개방되어 있는 장소입니다.
    개방되어 있는 곳의 정보는 검색로봇이 정보 수집을 해도 되는 

    장소가 됩니다.
    그러나 교무실이나  물품 보관 창고와 같은 곳은 특정 사람들만 출입이
    허용되는 곳으로 검색로봇에게 정보를 수집하지 못하도록
    차단하는 기능이 필요합니다.

    이처럼 Robots.txt 파일은 정보 수집을 해도 되는 페이지가 무엇인지,
    해서는 안 되는 페이지가 무엇인지 구별시키는 기능입니다.

 

3. Robots.txt는 제한할 항목을 결정하는 기능입니다. 
    내 사이트에 공개하기 싫은 비밀 일기장이나 장난감을 숨겨두는  방이
    있다고 가정한다면
검색로봇이 클롤링할때
    내 사이트의 공개하기 싫은 부분인 일기장이나  숨겨둔 장난감 방의 정보를
    수집하지 못하도록 구별하여 액세스 제한을 허락하는 기능입니다.


    즉, 비밀 일기장이나 장난감을 숨겨둘 수 있는 방이
     https://www.example.com/ 이라면
    https://www.example.com/robots.txt  와 같이

     robots.txt 파일의 기능을 내 사이트 끝에 추가 하는 것을 말합니다.

robots.txt 규칙 만들기, 조정하는 방법


robots.txt 파일로 내 사이트의 제한할 항목이 결정 되었다면
규칙을 작성해 줘야합니다.
다음은 robots.txt 파일 규칙을 조정하는 방법입니다.

 

1. 규칙 작성 :
    각 규칙은 "User-agent:"로 시작하는데, 
    이는 규칙의 대상을 지정하는 것과 같습니다.
    예를 들어 "User-agent: Googlebot" Google 검색 엔진을 위한 것입니다.
    그런 다음 "허용 안 함:"이라고 말한 다음 제한하려는 영역의 경로를 말합니다.
    예를 들어, "Disallow: /secret-diary"
    검색 엔진이 비밀 일기장을 방문하는 것을 원하지 않는다는 의미합니다.

 

2. 규칙 테스트 :
    규칙을 작성했으면 이제 테스트해 볼 차례입니다.
    온라인 도구를 사용하거나 규칙이 올바르게 작동하는지
    확인할 필요가 있습니다
.

 

3.  robots.txt 파일 조정하기 :
    제한해서는 안 되는 영역을 찾거나 더 많은 제한을 추가하려는 경우
    언제든지 돌아가서 
robots.txt 파일을 조정할 수 있습니다.

 

    robots.txt는 웹사이트에서 검색 엔진이 갈 수 있는 곳과
    갈 수 없는 곳을 안내하는 기능으로
    개인 영역을 비공개로 유지하고 방문자는 내가 보여주고 싶은 것만
    볼 수 있도록 보장합니다
.

robots.txt 파일에 대해 알아야 할 사항

1. robots.txt 파일에 대해 알아야 할 사항은 다음과 같습니다.   
    ▶ robots.txt
파일은 해당 파일이 적용되는 사이트 호스트의 루트에 있어야 합니다.
    ▶ 예를 들어 https://www.example.com/ 아래의
        모든
URL에 대한 크롤링을 제어하려면
    ▶ robots.txt 파일이 https://www.example.com/robots.txt에 있어야 합니다.

     ▶ robots.txt 파일은 텍스트 파일(text/plain)이어야 하며
        접근을 통해 접근 가능해야 합니다
.

     ▶ robots.txt 파일 자체는 보안 위협이 아니며 올바른 사용은
        보안이 아닌 이유로 좋은 사례가 될 수 있습니다
.

     ▶ WordPress와 같은 많은 웹사이트 관리 시스템은
        해당 파일을 자동으로 생성하고 백엔드 내에서 편집할 수 있도록 해줍니다
.

 

 robots.txt 로 차단된 내 파일을 찾는 단계별 지침

1. 웹 브라우저 열기 :

    선호하는 웹 브라우저(: Google Chrome, Mozilla Firefox, Safari)를 실행합니다.

2. 웹사이트 방문

    주소 표시줄에 웹사이트 URL을 입력하고 Enter 키를 눌러
    웹사이트로 이동하세요
.

3. Robots.txt 파일 접속 :

    내 웹사이트로 이동한 후 주소 표시줄에
    내 웹사이트
URL 끝에 "/robots.txt"를 추가하고 Enter 키를 누르세요.
    예를 들어 웹사이트가 'example.com'인 경우
    주소 표시줄에
'example.com/robots.txt'를 입력하세요.

4. Robots.txt 파일 보기 :

    이 작업을 수행하면 웹사이트의 robots.txt 파일 내용이
    브라우저 창에 직접 표시됩니다
.
    파일을 찾거나 액세스할 수 없다는 메시지가 표시되면
    웹사이트에
robots.txt 파일이 없거나 파일이 다른 디렉터리에
    있을 수 있습니다
.

5. 웹사이트 루트 디렉터리 확인 :

    위의 방법으로 robots.txt 파일을 찾을 수 없는 경우
    웹사이트 루트 디렉터리에서 직접 액세스해 볼 수 있습니다
.
    일반적으로 브라우저의 주소 표시줄에
    "yourwebsite.com/robots.txt"를 입력하면 됩니다.

 

위의 단계를 따르면 웹사이트의 robots.txt 파일을 쉽게 찾을 수 있습니다.
문제가 발생하거나 파일을 찾을 수 없는 경우
웹마스터나 호스팅 제공업체에 문의하여 도움을 받을 수 있습니다
.

 

 

 

728x90
300x250