Bu konunun anlaşılması google ve arama motorlarıyla iyi geçinmek isteyen webmasterlar için tasarım ve hazırlı kaşamasında rehber niteliğindedir. 

Standart bir İndeksleme şu şekilde işler:
1.) Bot (Örümcek) ana sayfaya ulaşır. Burada sayfaya ait tüm alt bağlantıları ve dışarı çıkan bağlantıları toplar ve kendi veri tabanına indirir. 

Diğelim 10 alt klasör ve 10 alt sayfan mevcut 10 adette dışarı bağlantı verilmiş. Bunları toplar.

Ana sayfaya 30 puan verirsek, her bir bağlantıya 1 adet puan verilir. Bunlar ileride google pr hesabına direkt katkı yaparlar.

10 klasörümüzün 10 puanı var toplamda ve her klasöre 1 puan pr gitmiştir.

Şu şekilde olayı gösterelim.

PHP- Kodu:
Ana sayfamız index.html
/klasor1/ = 1 puan
/klasor2/ = 1 puan
/klasor3/ = 1 puan
sayfa1
.htm = 1 puan
sayfa2
.php = 1 puan
sayfa3
.asp = 1 puan
<a href="http:// ....." target="_blank">1. bağlantı adı</a> = 1 puan
<a href="http:// ....." target="_top">2. bağlantı adı</a> = 1 puan
<a href="http:// .....">3. bağlantı adı</a> = 1 puan  

Yani ana sayfanız 30 puan önemli ise google gözünde alt sayfalar 1 puan önemlidir. Sıralamada bunu benzer şekilde kullanır.

Bu bölme işlemi standart pr hesaplamasının da temelini oluşturur. Az klasore linki veya sayfaya linki veya çıkış linki olan siteler daha çok pr ve önem taşırlar. (Eksik bilgi var tabi, pr değeri yüksek sitelere çok çıkış vermeninde olumlu etkisi olur)

Şimdi bot bu ana sayfada 30 url topladı diyelim.
10 klasore ulaştı ve burada toplam 50 sayfa 5 klasor daha topladı
Tekrar bu bilgileri veri tabanına indirir ve yeni bir örümcek bu kalan urleleri indekslemeye baÅŸlar. Ancak bu iÅŸlem için tüm sayfayı indirmesi gerekeceÄŸi için açılan kanallarda /thread) bir kopma olabilir ve indeksleme baÅŸarılı olamaz. Google botta 1 gigabit baÄŸlantı kullanır ve 100,000 threade ulaÅŸtığında thread başına 10kkps gücü kalacaktır. Genelde apache vb. web sunucular vb. tüm isteklere cevap veremez bazılarını kaçırır bu da indekslenmeyen sayfaların açıklamalarından biridir. Bu nedenle tüm sayfa ve omurga yapımızı google’a anlatmak için bir site haritası yaparız.

Şimdi google örümceği tüm bu sayfaları dolaştıktan sonra kendi algoritmasındaki kalite puanına göre bu sayfaları değerlendirir. Ana sayfadan direkt link alan klasor onun bir alt klasörüne göre daha değerlidir.

Bu mantıkla daha çok hit almasını istediğiniz sayfaları ana sayfaya içerik yapmanız veya oradan direkt bağlantı vermeniz daha mantıklıdır.

İndeksleme işlemi olarak google diğer botlardan daha gelişmiştir. Örneğin yahoo slurp botu indekslerken resmen siteye tecavüz eder. Bir anda tüm topladığı bağlantıları gelmeye kalkar ve bazıları eyvah ddos alıyorum sitem niye çöktü durduk yere gibi söylemlere başlar. Botlar bi anlamda sitenin bulunduğu serverı ezerler. 

Slurp botu için bu nedenle robots.txt nize bir gecikme verilmelidir. Tabi o zamana kadar yahoo botuna uslu durmayı öretebilirse gerek kalmaz. Google tarama hızını bizim ayalarlamamıza müsade ediyor. Akıllı, terbiyeli bir bot.biggrin Standart indeksleme işlemi, google ve tüm diğer botlar
robots.txt’nize bu ÅŸekilde bir gecikme verdirebilirsiniz.

PHP- Kodu:
User-agent: Slurp 
Crawl
-delay: 0.5  

önce ufak değerle başlanıp yükün çok gelmemesi için daha yüksek değerlere çekilmesi önerilir

PHP- Kodu:
User-agent: Slurp
Crawl
-delay: 5  

indeksleme iÅŸlemi için tek baÅŸ belası yahoo deÄŸildir cuil, msn vb. arama motorları zaman zaman serverınıza uÄŸrayıp bilgileri veritabanlarına ç-alıntılar yaparlar. Tek kurtuluÅŸ bunlara robots.txt disallow vermektir. E’sen de arama motoru yaz sende ç-al ama di mi. Maksat herkes aradığını bulsun. Nerde bu devlet nerde bu adalet diyenler için. Ya da adama bak benim içeriÄŸi çekiyor veritabanına atıyor sonra birileri aradıkça benim içeriÄŸimle benden para kazanıyor beÅŸ kuruÅŸta bana vermiyor diyenleriniz olabilir.
Bu adamlar dürüstse o zaman korsanlar da dürüst üstelik cesur adamlardır demek geliyor içimden ama korsanlığa özendirmeyim sizleri biggrin Standart indeksleme işlemi, google ve tüm diğer botlar Sonuçta o korsan olmazsa bize kim hit göndericek bu kadar. Yani aramızda büyük korsanlara ihtiyacımız var, sayelerinde biz küçükler verdikleri hitlerle geçinip gidiyoruz.

kısaca

PHP- Kodu:
User-agent: * 
Disallow: /  

dosyanızı txt yapıp ftp ana dizinine koyarsanız tüm botları sayarsınız. Korsan botları hariç. Onlar robots.txtye aldırmayan botlardır. 

İndeksleme işlemi işte böyle bişey, teknolojin varsa indeksle başka sitelerin haberlerini, sitelerini, blogları vb. vb. hatta git kütüphaneye copyrightları bitmiş kitapları robotlarınla at içeriğine. Sonra fikirleri düşünceleri yarışmalarla topla yatırımların daha çok kazansın diye. biggrin Standart indeksleme işlemi, google ve tüm diğer botlar İşte al sana yeni bir google (denizaltı gözlüğü) daha.

Şimdi en iyi indeskleyen örümcek en çok içeriği, en kısa zamanda ve en sık aralıklarla indeksleyebilen ve değerli içeriği en yukarı çekebilen örümcektir. Şuan bunu en iyi google yapmaktadır. (Rusların google a rakip arama motoru Randex i ve pek çok başka botu incelemedim henüz)

3 farklı google örümcek var olduğu düşünülür:

1 tanesi siz google.com üzerinde arama yaptığınızda arama motoru veritabanına ulaşıp bilgiyi getiren örümcek.
1 tanesi veritabanına url taşıyan daha yıldırım örümcek bazıları freshbot dediler
1 tanesi içeriği içeriği komple taşıyan kamyoncu örümcek (kamyon kamyon bilgi taşıdığı resmedilerek) evetguzel Standart indeksleme işlemi, google ve tüm diğer botlar

siz webmasterlar ilk sitenize yıldırım örümcek gelir. Bu adam url yollarını ve kamyonların geçeceği yolları ana merkeze bildirir. Ve bildirirken bu elindekileri ne kadar çekebiliyorsa bir geçici indeks veritabanına atar. İşte aramalarda yenisitelerin aniden yukarda çıkmaların nedeni bu yıldırım eklembacaklı paşasıdır.biggrin Standart indeksleme işlemi, google ve tüm diğer botlar Bu paşayı sitemap veya site haritası çok memnun eder. Yoksa kendisi gezip inip derinliklere o apachenin ve diğer sunucunun taşlı yollarında, kopmalara, kayıplara uğramadan direkt çekebilir. en azından neyi nerde bulacağını bilir.

gozkirp Standart indeksleme iÅŸlemi, google ve tüm diÄŸer botlar Bizim bu yukardaki bilgiler de mühimmat gibi biÅŸey tehlikeli madde taşıyoruz google’ın saklamaya çalıştığı ticari gerçekleri… Biri alır bunla atom bombası yapar bilemem, ya da o forum bu forum gezer neden google bana gelmiyor indekslenmiyorum derdi ne bunun der der durur. 

Yıldırım eklembacaklısının önüne yem atın. Biliyorsunuz onun görevi ç-alıntı yapılacak siteler sayfalar ve taze içerik bulmaktı. Örneğin ana sayfanızda bir bağlantı oluşturun (ona bi kanal açın) o bağlantının bir ucunda site haritanız olsun. Yıldırım gelince o linki ve içindeki o tazecik bağlantıları görüp kamyoncu bota bildirmek isteyecektir. 

Buradaki bilgi kısmen olaya yeni başlayanları anlaması için düzenlendi. 

Orijinal webmastersitesi biggrin Standart indeksleme iÅŸlemi, google ve tüm diÄŸer botlar yazısı alıntılar da Webmaster Sitesi’ne mutlaka link veriniz.