본문 바로가기
N잡러/블로그 운영

구글 서치 콘솔 robots.txt 오류 찾기 (실패한 크롤링 100%)

by 스마트머니 2021. 9. 3.
반응형

티스토리 블로그를 구글 서치 콘솔에 등록한 후 크롤링 요청이 100% 실패하고 있는 것으로 확인되고, robots.txt 에서 뭔가 문제가 있어서 그런 것으로 확인됩니다. 크롤링이란 무엇인지 뜻도 알아보고 오류 해결을 시도해봅니다. 일단, 블로그가 검색엔진에서 원활하게 검색되어야 하는데, 오류가 자꾸 나타나는 것은 매우 짜증 나는 일입니다. 실제로 이런 부분들이 짜증 나서 그만둔 분들까지도 있다고 하네요.

 

오류 현상 확인

구글 서치 콘솔 (Google Search Console)에 접속하여 왼쪽 메뉴를 보면, 설정 버튼이 있습니다. 이것을 클릭해 봅니다. 

 

구글 서치 콘솔 메뉴
구글 서치 콘솔 메뉴

 

설정 버튼을 누르게 되면 나오는 화면에서 다음과 같은 내용을 볼 수 있습니다.

'크롤링 통계, 크롤링 요청 8개(지난 90일), 보고서 열기' 이런 내용들이 나오는데, '보고서 열기' 버튼을 클릭합니다.

구글 서치 콘솔 설정 화면
구글 서치 콘솔 설정 화면

 

'보고서 열기' 버튼을 클릭하면 아래와 같은 보고서가 나타납니다. 

총 크롤링 요청 횟수는 8회이고, 별도로 '총 다운로드 크기(바이트)' 나 '평균 응답 시간(밀리초)'에는 특별히 나타나는 것은 없습니다.

 

크롤링 요청 트렌드를 보면, 블로그가 최초 개설된 8/25일 5회, 그리고 그다음 날 8/26일 3회, 이렇게 총 8회입니다.

현재 아래 보고서를 확인하는 시점은 8/29일이므로 약 3일 정도의 차이가 발생하는 것 같습니다. (또는 지난 3일간 아무런 크롤링 요청이 없었을지도 모르죠. 이 부분은 당분간 계속 지켜봐야 할 것 같습니다'

구글 서치 콘솔 크롤링 통계 화면
구글 서치 콘솔 크롤링 통계 화면

 

일단, 오류가 뜨면 기분이 좋지 않은데요, 위와 같이 호스트 상태에 빨간색 느낌표가 떠 있고, '지난주에 호스트 문제 있었음'이라는 메시지가 뜹니다. (지난주에는 제가 블로그를 개설하지 않았는데요. 정확하게 어떤 의미인지 모르겠습니다)

그 외에 크롤링 요청 측정기준별 내역에서 '응답 기준', '파일 형식 기준', '목적 기준', 'Googlebot 유형 기준'과 같이 4가지 항목에 대한 분석 결과가 나타나네요.

 

구글 서치 콘솔 크롤링 요청 측정기준별 내역
구글 서치 콘솔 크롤링 요청 측정기준별 내역

 

호스트 상태 오류 확인해보기

호스트 상태 오류 메시지 확인하기 위하여 상세 페이지를 확인해봅니다. 아래 그림의 삼각 꺽쇠를 눌러줍니다.

호스트 상태 오류
호스트 상태 오류

다음과 같은 상세페이지로 연결되는데, 다음과 같은 오류 메시지가 뜹니다.

"지난주에 호스트 문제 있었음

Google에서 지난주에 콘텐츠에 액세스 하지 못한 경우가 있었습니다. 아래 문제 주제를 살펴보고 모든 문제가 해결되었는지 확인하세요. 자세히 알아보기

 

한 주의 기준을 어디부터 잡는지 정확하게는 모르겠지만, 지난주에는 블로그가 아직 개설되지 않았기 때문에 지난주에는 당연히 콘텐츠에 액세스 하지 못했겠죠. 설마 그걸 말하는 걸까요?

'robots.txt 가져오기'에서 지난주 실패율이 높았다고 나오고 있고, 'DNS 확인' 및 '서버 연결'은 정상적으로 나타나고 있습니다. 녹색으로 뜨는 것은 볼 때마다 기분이 좋습니다. 

호스트 상태 오류 메시지
호스트 상태 오류 메시지

 

robots.txt 항목을 눌러 상세한 내용을 알아봅니다.

눌러보니 트렌드가 나오는데, 실패한 크롤링 요청이 100%로 지난 8/25일, 8/26일 이틀간 계속해서 나타나고 있는데, 아마도 현재 3일 delay가 있는 점을 고려할 때, 현재까지도 같은 문제를 겪고 있을 가능성이 있겠네요.

robots.txt 가 현재 제대로 작동을 하고 있지 않은 것 같습니다. 최우선적으로 수정(Fix)이 필요해 보입니다. 

robots.txt 오류 현황
robots.txt 오류 현황

 

물음표 버튼을 눌러보니 다음과 같은 메시지가 뜹니다.

robots.txt 가져오기는 Google이 사이트를 크롤링할 때 robots.txt 파일을 요청하는데 문제가 발생하는지 알려 줍니다. 연결 문제는 가져오기 요청 오류가 하루 기준치를 초과했을 때 발생합니다. 가져오기에 성공하면 robots.txt 파일을 가져오는 데 성공했거나(200) 파일이 존재하지 않는 것(404)입니다. 다른 모든 응답은 가져오기 오류로 간주됩니다.

오류 메시지를 보니 일단 robots.txt 파일이 없는 것은 아니네요. 실제로 내 블로그 주소 뒤에 robots.txt를 붙여서 인터넷 주소창에 확인해보면 쉽게 확인할 수 있습니다. 

 

'자세히 알아보기' 버튼을 눌러서 상세한 내용을 확인해봅니다. 

robots.txt 오류 현황 상세보기
robots.txt 오류 현황 상세보기

 

Search Console 고객센터의 도움말 센터로 연결됩니다.  

Search Console에서 사이트 및 사용자 관리하기 > 속성 및 사용자 설정 > 속성 설정 > 크롤링 통계 보고서

해당 내용 중 robots.txt 가져오기에 대한 부분의 내용을 보면 다소 심각한 부분이 보이네요.

"응답을 반환하지 않으면 Google에서 만족스러운 robots.txt 응답을 받을 수 있을 때까지 사이트 크롤링의 속도를 늦추거나 중단합니다'

크롤링 속도를 늦추거나 중단한다는 것은 매우 좋지 않은 내용입니다. Google에서 검색이 제대로 안된다는 것이니까요. 

호스트 상태 세부정보
Search Console 고객센터의 도움말 센터 - 호스트 상태 세부정보

 

Search Console 고객센터의 도움말 센터에 다음을 찾아갑니다.

모든 보고서 및 도구 > 기존 또는 외부 보고서 및 도구 > robots.txt 테스터를 이용해 robots.txt 테스트하기

 

robots.txt 테스터를 이용해 robots.txt 테스트하기 - Search Console 고객센터

robots.txt 테스터 도구는 robots.txt 파일이 사이트의 특정 URL에서 Google 웹 크롤러를 차단하는지를 알려줍니다. 예를 들어 Google 이미지 검색에서 차단하고 싶은 이미지의 URL을 Googlebot-Image 크롤러가

support.google.com

robots.txt 테스터를 통해 테스트를 해봅니다. 

robots.txt 테스터 실행하기
robots.txt 테스터 실행하기

 

robots.txt 테스터를 열자 아래와 같은 화면이 나타나는데, robots.txt의 코드가 나타나야 할 사각형 box 부분에 아무것도 나타나지 않습니다. 수동으로 입력을 해보려고 해도 아무것도 입력되지 않는데요. 아래쪽에 보면 '오류 0개', '경고 0개'라고 나오기는 하는데, 사각 box 안에 아무것도 안 나오는 것으로 보아서 뭔가 제대로 작동하지 않는 것 같습니다. 아니면 원래 이런 것일까요?

 

robots.txt 테스터
robots.txt 테스터

 

아직까지는 정확하게 robots.txt 가 어떤 문제로 크롤링을 실패하는지 알기 어렵습니다.

티스토리 블로그가 처음 개설 후 일정 시간이 지날 때까지 구글에서 인식이 잘 되지 않는 것은 아닌지에 대한 의문이 있지만 이 부분에 대한 정확한 내용을 담고 있는 부분을 아직 찾지 못하겠습니다. 

 

아무튼 크롤링이 안 되는 상태가 오래되면 검색에 문제가 생길 수도 있다는 말에 다소 걱정이 되긴 하지만, 일단은 좀 더 상황을 지켜봐야 할 것 같습니다. 

 

도움말 센터의 크롤링 통계보고서 부분을 참고하자면, 

이 보고서는 고급 사용자를 대상으로 합니다. 사이트 페이지 수가 1,000개 미만인 경우 이 보고서를 사용하지 않거나 이 정도 수준의 크롤링 세부 정보는 신경 쓰지 않아도 됩니다.

라고 되어 있으니 당분간 모니터링하면서 지켜보도록 하겠습니다. 


구글 서치 콘솔 (Google Search Console) 등록 및 이와 관련된 오류 문제 Trouble Shooting 관련 사항은 연관된 포스팅들을 통해 지속적으로 공유할 예정이니 참고하시기 바랍니다. 

 

구글 서치 콘솔
구글 서치 콘솔

 

반응형