차림

2021년 2월 21일

테크노트 접속 통계에서 로봇 제외하는 법과 검색 로봇 목록

* 황씨신문에 있던 건데, 여기가 더 어울리기 때문에 옮김.

테크노트에는 접속 정보가 기록되는데, 실제 사람이 다녀간 것뿐만 아니라 검색 로봇이 다녀간 것도 기록된다. 그래서 실제 조회수 등 접속 정보보다 부풀려져 왜곡된 정보가 기록되는 문제가 있고, 전송량이 아주 많은 경우 이게 서버에 부하를 줄 수도 있다.

테크노트에서 검색 로봇이 접속한 걸 통계에 넣지 않으려면, 테크노트 폴더에서 lib.php 파일을 열고 검색머신체크 항목에 있는 배열 $SearchBot_array에 검색 로봇을 추가해 주면 된다. 이 배열에 있는 검색 로봇은 접속 통계에 기록되지 않는다.

그리고 비상식적으로 접속해대는 로봇은 robots.txt 파일을 써서 아예 차단하는 게 좋다. 영양가는 없고 전송량만 잡아 먹는다. 내 누리집에 어떤 검색 로봇이 들어오는지는 lib.php 파일에 특정 코드를 넣어서 알아낼 수 있다.

위에서 말한 두 가지, 즉, 테크노트 접속 통계에서 로봇을 제외하는 거랑 어떤 로봇이 들어오는지 알아내는 방법은 아래 링크에 나와 있다.

아래는 그동안 내가 알아낸 검색 로봇 목록. Twiceler는 요새는 못 봤는데 영양가는 없으면서 접속량만 많았다.

*** 붙은 건 차단한 거.

2011년 10월 16일 만든 목록

DAUMOA-web (http://ws.daum.net/aboutkr.html)
DAUMOA-site
DAUMOA-video
Daumoa/2.0
NaverBot/1.0 (http://help.naver.com/delete_main.asp)
Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follow it)
Yeti/1.0 (http://help.naver.com/robots/)
Yahoo! Slurp (http://help.yahoo.com/help/us/ysearch/slurp)
Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)
Yahoo! Slurp China (http://misc.yahoo.com.cn/help.html)
Googlebot/2.1 (http://www.google.com/bot.html)
Google Wireless Transcoder
msnbot/0.01 (http://search.msn.com/msnbot.htm)
msnbot/1.0
msnbot/1.1
msnbot-media/1.0
REBI-Shoveler v0.1 (레비서치)
Giant/1.0 (Openmaru bot; robot@openmaru.com)
Microsoft URL Control - 6.01.9782 (코넷)
HMSE_Robot (하나로텔레콤)
bingbot/2.0 (http://www.bing.com/bingbot.htm)

그 뒤 언젠가 추가한 목록

Baiduspider+ (http://www.baidu.com/search/spider_jp.html)
Baiduspider/2.0 (http://www.baidu.com/search/spider.html)
Charlotte/1.0b (http://www.searchme.com/support/)
DataCha0s/2.0
DepSpid/5.26 (http://about.depspid.net)
DoCoMo/2.0 (http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html)
EasyDL/3.04  http://keywen.com/Encyclopedia/Bot
Ezooms/1.0 (ezooms.bot@gmail.com)
FreeBot
heritrix/1.12.1 (http://www.page-store.com) [email:paul@page-store.com]
ia_archiver 
libwww-perl
MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+)
multicrawler (http://sw.deri.org/2006/04/multicrawler/robots.html)
page_prefetcher
Python-urllib/2.4
Python-urllib/2.5
SemrushBot/0.96.2 (http://www.semrush.com/bot.html)
Snapbot/1.0 (Snap Shots, +http://www.snap.com)
SnapPreviewBot
Sosoimagespider+ (http://help.soso.com/soso-image-spider.htm)
TinEye/1.1 (http://tineye.com/crawler.html)
Twiceler-0.9 (http://www.cuill.com/twiceler/robot.html)
VisBot/2.0 (Visvo.com Crawler; http://www.visvo.com/bot.html; bot@visvo.com)
W3CRobot/5.4.0

2021년 1월 25일 추가

Adsbot ***
Applebot/0.1 (http://www.apple.com/go/applebot)
bingbot/2.0 (http://www.bing.com/bingbot.htm)
Blueno/1.0 (http://naver.me/scrap)
BublupBot (+https://www.bublup.com/bublup-bot.html)
CCBot/2.0 (https://commoncrawl.org/faq/)
coccocbot-web/1.0 (http://help.coccoc.com/searchengine)
CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)
Dataprovider.com
Daum/4.1 (http://cs.daum.net/faq/15/4118.html?faqId=28966)
Discordbot/2.0 (https://discordapp.com)
Facebot Twitterbot/1.0
GrapeshotCrawler/2.0 (http://www.grapeshot.co.uk/crawler.php)
ias-ir (+https://www.admantx.com/service-fetcher.html)
ias-jp
ias-or
ias-va (+https://www.admantx.com/service-fetcher.html)
IABot/2.0 (+https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins)
kakaotalk-scrap/1.0 (https://devtalk.kakao.com/t/scrap/33984)
ltx71 - (http://ltx71.com/)
MegaIndex.ru/2.0 (http://megaindex.com/crawler) ***
naverbookmarkcrawler
PetalBot (https://aspiegel.com/petalbot)
PetalBot;+https://webmaster.petalsearch.com/site/petalbot
Pinterestbot/1.0 (http://www.pinterest.com/bot.html)
proximic (https://www.comscore.com/Web-Crawler)
SemrushBot-BA (+http://www.semrush.com/bot.html)
SEOkicks (https://www.seokicks.de/robot.html)
TTD-Content (https://www.thetradedesk.com/general/ttd-content)
Twitterbot
VelenPublicWebCrawler/1.0 (https://velen.io)
YandexBot/3.0 (http://yandex.com/bots)
Yeti/1.1 (http://naver.me/spd)

2021년 3월 23일 추가

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
LightspeedSystemsCrawler
netEstate NE Crawler (+http://www.website-datenbank.de/) ***
Seekport Crawler; http://seekport.com/ ***
SpiderLing (a SPIDER for LINGustic research); +http://nlp.fi.muni.cz/projects/biwec/
TweetmemeBot/4.0; +http://datasift.com/bot.html
V-BOT/0.001 (+mailto://bot@voyagerx.com) ***

2021년 4월 18일 추가

archive.org_bot +http://archive.org/details/archive.org_bot
LinkAnalyser/2.0
MauiBot (crawler.feedback+wc@gmail.com) ***

2021년 5월 2일 추가

Amazonbot/0.1; + (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) ***

2021년 5월 9일 추가

Aranea Web-Crawled Corpora Project (2021 Koreanan Crawl) (+http://unesco.uniba.sk/guest)
ICC-Crawler/2.0 (http://ucri.nict.go.jp/en/icccrawler.html)
line-poker/1.0
Linespider/1.1; +https://lin.ee/4dwXkTH)	
Quantcastbot/1.0 (+http://www.quantcast.com/bot)
serpstatbot/2.0 beta (advanced backlink tracking bot; http://serpstatbot.com/; abuse@serpstatbot.com) ***

serpstatbot은 robots.txt로는 차단되지 않아서 .htaccess 파일로 ip를 차단했다. 전송량 팍팍 갉아먹으면서 긁어가는 것도 부족해서 로봇 규약도 지키지 않나 보네.

2021년 5월 14일 추가

BLEXBot/1.0; +http://webmeup-crawler.com/ ***

2021년 6월 3일 추가

LivelapBot/0.2 (http://site.livelap.com/crawler)

2021년 10월 10일 추가

clark-crawler2/Nutch-1.19-SNAPSHOT
DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot) ***
AhrefsBot
Mail.RU_Bot
목록