İnternet Hizmetleri,Hosting Çözümleri
Standart indeksleme işlemi, google ve tüm diğer botlar
Bu konunun anlaşılması google ve arama motorlarıyla iyi geçinmek isteyen webmasterlar için tasarım ve hazırlı kaÅŸamasında rehber niteliÄŸindedir.Â
Standart bir İndeksleme şu şekilde işler:
1.) Bot (Örümcek) ana sayfaya ulaşır. Burada sayfaya ait tüm alt baÄŸlantıları ve dışarı çıkan baÄŸlantıları toplar ve kendi veri tabanına indirir.Â
Diğelim 10 alt klasör ve 10 alt sayfan mevcut 10 adette dışarı bağlantı verilmiş. Bunları toplar.
Ana sayfaya 30 puan verirsek, her bir bağlantıya 1 adet puan verilir. Bunlar ileride google pr hesabına direkt katkı yaparlar.
10 klasörümüzün 10 puanı var toplamda ve her klasöre 1 puan pr gitmiştir.
Şu şekilde olayı gösterelim.
Ana sayfamız index.html
/klasor1/Â =Â 1Â puan
/klasor2/Â =Â 1Â puan
/klasor3/Â =Â 1Â puan
sayfa1.htm = 1 puan
sayfa2.php = 1 puan
sayfa3.asp = 1 puan
<a href="http:// ....." target="_blank">1. bağlantı adı</a> = 1 puan
<a href="http:// ....." target="_top">2. bağlantı adı</a> = 1 puan
<a href="http:// .....">3. baÄŸlantı adı</a> = 1 puan Â
Yani ana sayfanız 30 puan önemli ise google gözünde alt sayfalar 1 puan önemlidir. Sıralamada bunu benzer şekilde kullanır.
Bu bölme işlemi standart pr hesaplamasının da temelini oluşturur. Az klasore linki veya sayfaya linki veya çıkış linki olan siteler daha çok pr ve önem taşırlar. (Eksik bilgi var tabi, pr değeri yüksek sitelere çok çıkış vermeninde olumlu etkisi olur)
Şimdi bot bu ana sayfada 30 url topladı diyelim.
10 klasore ulaştı ve burada toplam 50 sayfa 5 klasor daha topladı
Tekrar bu bilgileri veri tabanına indirir ve yeni bir örümcek bu kalan urleleri indekslemeye baÅŸlar. Ancak bu iÅŸlem için tüm sayfayı indirmesi gerekeceÄŸi için açılan kanallarda /thread) bir kopma olabilir ve indeksleme baÅŸarılı olamaz. Google botta 1 gigabit baÄŸlantı kullanır ve 100,000 threade ulaÅŸtığında thread başına 10kkps gücü kalacaktır. Genelde apache vb. web sunucular vb. tüm isteklere cevap veremez bazılarını kaçırır bu da indekslenmeyen sayfaların açıklamalarından biridir. Bu nedenle tüm sayfa ve omurga yapımızı google’a anlatmak için bir site haritası yaparız.
Şimdi google örümceği tüm bu sayfaları dolaştıktan sonra kendi algoritmasındaki kalite puanına göre bu sayfaları değerlendirir. Ana sayfadan direkt link alan klasor onun bir alt klasörüne göre daha değerlidir.
Bu mantıkla daha çok hit almasını istediğiniz sayfaları ana sayfaya içerik yapmanız veya oradan direkt bağlantı vermeniz daha mantıklıdır.
İndeksleme iÅŸlemi olarak google diÄŸer botlardan daha geliÅŸmiÅŸtir. ÖrneÄŸin yahoo slurp botu indekslerken resmen siteye tecavüz eder. Bir anda tüm topladığı baÄŸlantıları gelmeye kalkar ve bazıları eyvah ddos alıyorum sitem niye çöktü durduk yere gibi söylemlere baÅŸlar. Botlar bi anlamda sitenin bulunduÄŸu serverı ezerler.Â
Slurp botu için bu nedenle robots.txt nize bir gecikme verilmelidir. Tabi o zamana kadar yahoo botuna uslu durmayı öretebilirse gerek kalmaz. Google tarama hızını bizim ayalarlamamıza müsade ediyor. Akıllı, terbiyeli bir bot.
robots.txt’nize bu ÅŸekilde bir gecikme verdirebilirsiniz.
User-agent:Â SlurpÂ
Crawl-delay:Â 0.5Â Â
önce ufak değerle başlanıp yükün çok gelmemesi için daha yüksek değerlere çekilmesi önerilir
User-agent:Â Slurp
Crawl-delay:Â 5Â Â
indeksleme iÅŸlemi için tek baÅŸ belası yahoo deÄŸildir cuil, msn vb. arama motorları zaman zaman serverınıza uÄŸrayıp bilgileri veritabanlarına ç-alıntılar yaparlar. Tek kurtuluÅŸ bunlara robots.txt disallow vermektir. E’sen de arama motoru yaz sende ç-al ama di mi. Maksat herkes aradığını bulsun. Nerde bu devlet nerde bu adalet diyenler için. Ya da adama bak benim içeriÄŸi çekiyor veritabanına atıyor sonra birileri aradıkça benim içeriÄŸimle benden para kazanıyor beÅŸ kuruÅŸta bana vermiyor diyenleriniz olabilir.
Bu adamlar dürüstse o zaman korsanlar da dürüst üstelik cesur adamlardır demek geliyor içimden ama korsanlığa özendirmeyim sizleriÂ
 Sonuçta o korsan olmazsa bize kim hit göndericek bu kadar. Yani aramızda büyük korsanlara ihtiyacımız var, sayelerinde biz küçükler verdikleri hitlerle geçinip gidiyoruz.
kısaca
User-agent:Â *Â
Disallow:Â /Â Â
dosyanızı txt yapıp ftp ana dizinine koyarsanız tüm botları sayarsınız. Korsan botları hariç. Onlar robots.txtye aldırmayan botlardır.Â
İndeksleme iÅŸlemi iÅŸte böyle biÅŸey, teknolojin varsa indeksle baÅŸka sitelerin haberlerini, sitelerini, blogları vb. vb. hatta git kütüphaneye copyrightları bitmiÅŸ kitapları robotlarınla at içeriÄŸine. Sonra fikirleri düşünceleri yarışmalarla topla yatırımların daha çok kazansın diye.Â
 İşte al sana yeni bir google (denizaltı gözlüğü) daha.
Şimdi en iyi indeskleyen örümcek en çok içeriği, en kısa zamanda ve en sık aralıklarla indeksleyebilen ve değerli içeriği en yukarı çekebilen örümcektir. Şuan bunu en iyi google yapmaktadır. (Rusların google a rakip arama motoru Randex i ve pek çok başka botu incelemedim henüz)
3 farklı google örümcek var olduğu düşünülür:
1 tanesi siz google.com üzerinde arama yaptığınızda arama motoru veritabanına ulaşıp bilgiyi getiren örümcek.
1 tanesi veritabanına url taşıyan daha yıldırım örümcek bazıları freshbot dediler
1 tanesi içeriği içeriği komple taşıyan kamyoncu örümcek (kamyon kamyon bilgi taşıdığı resmedilerek) 
siz webmasterlar ilk sitenize yıldırım örümcek gelir. Bu adam url yollarını ve kamyonların geçeceği yolları ana merkeze bildirir. Ve bildirirken bu elindekileri ne kadar çekebiliyorsa bir geçici indeks veritabanına atar. İşte aramalarda yenisitelerin aniden yukarda çıkmaların nedeni bu yıldırım eklembacaklı paşasıdır.
 Bu paşayı sitemap veya site haritası çok memnun eder. Yoksa kendisi gezip inip derinliklere o apachenin ve diğer sunucunun taşlı yollarında, kopmalara, kayıplara uğramadan direkt çekebilir. en azından neyi nerde bulacağını bilir.
 Bizim bu yukardaki bilgiler de mühimmat gibi biÅŸey tehlikeli madde taşıyoruz google’ın saklamaya çalıştığı ticari gerçekleri… Biri alır bunla atom bombası yapar bilemem, ya da o forum bu forum gezer neden google bana gelmiyor indekslenmiyorum derdi ne bunun der der durur.Â
Yıldırım eklembacaklısının önüne yem atın. Biliyorsunuz onun görevi ç-alıntı yapılacak siteler sayfalar ve taze içerik bulmaktı. ÖrneÄŸin ana sayfanızda bir baÄŸlantı oluÅŸturun (ona bi kanal açın) o baÄŸlantının bir ucunda site haritanız olsun. Yıldırım gelince o linki ve içindeki o tazecik baÄŸlantıları görüp kamyoncu bota bildirmek isteyecektir.Â
Buradaki bilgi kısmen olaya yeni baÅŸlayanları anlaması için düzenlendi.Â
Orijinal webmastersitesiÂ
 yazısı alıntılar da Webmaster Sitesi’ne mutlaka link veriniz.






