* 황씨신문에 있던 건데, 여기가 더 어울리기 때문에 옮김.
테크노트에는 접속 정보가 기록되는데, 실제 사람이 다녀간 것뿐만 아니라 검색 로봇이 다녀간 것도 기록된다. 그래서 실제 조회수 등 접속 정보보다 부풀려져 왜곡된 정보가 기록되는 문제가 있고, 전송량이 아주 많은 경우 이게 서버에 부하를 줄 수도 있다.
테크노트에서 검색 로봇이 접속한 걸 통계에 넣지 않으려면, 테크노트 폴더에서 lib.php 파일을 열고 검색머신체크
항목에 있는 배열 $SearchBot_array
에 검색 로봇을 추가해 주면 된다. 이 배열에 있는 검색 로봇은 접속 통계에 기록되지 않는다.
그리고 비상식적으로 접속해대는 로봇은 robots.txt
파일을 써서 아예 차단하는 게 좋다. 영양가는 없고 전송량만 잡아 먹는다. 내 누리집에 어떤 검색 로봇이 들어오는지는 lib.php
파일에 특정 코드를 넣어서 알아낼 수 있다.
위에서 말한 두 가지, 즉, 테크노트 접속 통계에서 로봇을 제외하는 거랑 어떤 로봇이 들어오는지 알아내는 방법은 아래 링크에 나와 있다.
아래는 그동안 내가 알아낸 검색 로봇 목록. Twiceler는 요새는 못 봤는데 영양가는 없으면서 접속량만 많았다.
*** 붙은 건 차단한 거.
DAUMOA-web (http://ws.daum.net/aboutkr.html) DAUMOA-site DAUMOA-video Daumoa/2.0 NaverBot/1.0 (http://help.naver.com/delete_main.asp) Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follow it) Yeti/1.0 (http://help.naver.com/robots/) Yahoo! Slurp (http://help.yahoo.com/help/us/ysearch/slurp) Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com) Yahoo! Slurp China (http://misc.yahoo.com.cn/help.html) Googlebot/2.1 (http://www.google.com/bot.html) Google Wireless Transcoder msnbot/0.01 (http://search.msn.com/msnbot.htm) msnbot/1.0 msnbot/1.1 msnbot-media/1.0 REBI-Shoveler v0.1 (레비서치) Giant/1.0 (Openmaru bot; robot@openmaru.com) Microsoft URL Control - 6.01.9782 (코넷) HMSE_Robot (하나로텔레콤) bingbot/2.0 (http://www.bing.com/bingbot.htm)
Baiduspider+ (http://www.baidu.com/search/spider_jp.html) Baiduspider/2.0 (http://www.baidu.com/search/spider.html) Charlotte/1.0b (http://www.searchme.com/support/) DataCha0s/2.0 DepSpid/5.26 (http://about.depspid.net) DoCoMo/2.0 (http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html) EasyDL/3.04 http://keywen.com/Encyclopedia/Bot Ezooms/1.0 (ezooms.bot@gmail.com) FreeBot heritrix/1.12.1 (http://www.page-store.com) [email:paul@page-store.com] ia_archiver libwww-perl MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+) multicrawler (http://sw.deri.org/2006/04/multicrawler/robots.html) page_prefetcher Python-urllib/2.4 Python-urllib/2.5 SemrushBot/0.96.2 (http://www.semrush.com/bot.html) Snapbot/1.0 (Snap Shots, +http://www.snap.com) SnapPreviewBot Sosoimagespider+ (http://help.soso.com/soso-image-spider.htm) TinEye/1.1 (http://tineye.com/crawler.html) Twiceler-0.9 (http://www.cuill.com/twiceler/robot.html) VisBot/2.0 (Visvo.com Crawler; http://www.visvo.com/bot.html; bot@visvo.com) W3CRobot/5.4.0
Adsbot *** Applebot/0.1 (http://www.apple.com/go/applebot) bingbot/2.0 (http://www.bing.com/bingbot.htm) Blueno/1.0 (http://naver.me/scrap) BublupBot (+https://www.bublup.com/bublup-bot.html) CCBot/2.0 (https://commoncrawl.org/faq/) coccocbot-web/1.0 (http://help.coccoc.com/searchengine) CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/) Dataprovider.com Daum/4.1 (http://cs.daum.net/faq/15/4118.html?faqId=28966) Discordbot/2.0 (https://discordapp.com) Facebot Twitterbot/1.0 GrapeshotCrawler/2.0 (http://www.grapeshot.co.uk/crawler.php) ias-ir (+https://www.admantx.com/service-fetcher.html) ias-jp ias-or ias-va (+https://www.admantx.com/service-fetcher.html) IABot/2.0 (+https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins) kakaotalk-scrap/1.0 (https://devtalk.kakao.com/t/scrap/33984) ltx71 - (http://ltx71.com/) MegaIndex.ru/2.0 (http://megaindex.com/crawler) *** naverbookmarkcrawler PetalBot (https://aspiegel.com/petalbot) PetalBot;+https://webmaster.petalsearch.com/site/petalbot Pinterestbot/1.0 (http://www.pinterest.com/bot.html) proximic (https://www.comscore.com/Web-Crawler) SemrushBot-BA (+http://www.semrush.com/bot.html) SEOkicks (https://www.seokicks.de/robot.html) TTD-Content (https://www.thetradedesk.com/general/ttd-content) Twitterbot VelenPublicWebCrawler/1.0 (https://velen.io) YandexBot/3.0 (http://yandex.com/bots) Yeti/1.1 (http://naver.me/spd)
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php) LightspeedSystemsCrawler netEstate NE Crawler (+http://www.website-datenbank.de/) *** Seekport Crawler; http://seekport.com/ *** SpiderLing (a SPIDER for LINGustic research); +http://nlp.fi.muni.cz/projects/biwec/ TweetmemeBot/4.0; +http://datasift.com/bot.html V-BOT/0.001 (+mailto://bot@voyagerx.com) ***
archive.org_bot +http://archive.org/details/archive.org_bot LinkAnalyser/2.0 MauiBot (crawler.feedback+wc@gmail.com) ***
Amazonbot/0.1; + (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) ***
Amazonbot은 robots.txt
로는 차단되지 않아서 .htaccess
파일로 ip를 차단했다.
Aranea Web-Crawled Corpora Project (2021 Koreanan Crawl) (+http://unesco.uniba.sk/guest) ICC-Crawler/2.0 (http://ucri.nict.go.jp/en/icccrawler.html) line-poker/1.0 Linespider/1.1; +https://lin.ee/4dwXkTH) Quantcastbot/1.0 (+http://www.quantcast.com/bot) serpstatbot/2.0 beta (advanced backlink tracking bot; http://serpstatbot.com/; abuse@serpstatbot.com) ***
serpstatbot은 robots.txt
로는 차단되지 않아서 .htaccess
파일로 ip를 차단했다. 전송량 팍팍 갉아먹으면서 긁어가는 것도 부족해서 로봇 규약도 지키지 않나 보네.
BLEXBot/1.0; +http://webmeup-crawler.com/ ***
LivelapBot/0.2 (http://site.livelap.com/crawler)
clark-crawler2/Nutch-1.19-SNAPSHOT DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot) *** AhrefsBot Mail.RU_Bot