Blogunuz için etkili bir Robots Txt dosyası oluşturma rehberi

robots.txt

Sitenizi kimin taradığını ve dizine eklediğini, tek tek sayfalara kadar tam kontrole sahip olduğunuzu biliyor muydunuz?

Bunun yapılma şekli Robots.txt adlı bir dosya aracılığıyla gerçekleşiyor.

Robots.txt, sitenizin kök dizinindeki sitelerin bulunduğu basit bir metin dosyasıdır. Sitenizde hangi sayfaların taranacağını, hangi sayfaların göz ardı edileceğini “robotlara” (arama motoru örümcekleri gibi) söyler.

Önemli olmasa da, Robots.txt dosyası size Google ve diğer arama motorlarının sitenizi nasıl gördüğü konusunda çok fazla kontrol sağlar.

Doğru kullanıldığında, tarama ve hatta SEO yu etkileyebilir.

Ama tam olarak nasıl etkili bir Robots.txt dosyası oluşturacağınızı biliyor musunuz?.

Oluşturulduktan sonra nasıl kullanıyorsunuz?. Ve bunu kullanırken hangi hatalardan kaçınmalısınız?.

Bu makalede, Robots.txt dosyası oluşturma hakkında bilmeniz gereken her şeyi ve blogunuzda nasıl kullanacağınızı paylaşacağım.

ROBOTS TXT DOSYASI NEDİR?

İnternetin ilk günlerinde, programcılar ve mühendisler web'deki sayfaları taramak ve dizine eklemek için 'robotlar' veya 'örümcekler' oluşturdular. Bu robotlar ayrıca 'kullanıcı aracıları' olarak da bilinir.

Bazen, bu robotlar site sahiplerinin dizine almak istemediği sayfalara yönelirdi. Örneğin, bir yapım şantiyesi veya özel bir web sitesi.

Bu sorunu çözmek için dünyanın ilk arama motorunu ( Aliweb ) ortaya çıkaran Hollandalı bir mühendis olan Martijn Koste r, her robotun uyması gereken bir dizi standart önerdi. Bu standartlar ilk kez Şubat 1994'te önerildi.

30 Haziran 1994'te, bir dizi robot yazar ve erken web öncüsü standartlar konusunda uzlaşmaya vardı.

Bu standartlar “Robotlar Dışlama Protokolü” (REP) olarak kabul edildi.

Robots.txt dosyası bu protokolün bir uygulamasıdır.

REP, her yasal tarayıcı veya örümceğin takip etmesi gereken bir takım kuralları tanımlar. Robots.txt, bir web sayfasını dizine eklememesi için robotlara talimat verirse, Googlebot'tan MSNbot'a kadar her meşru robotun talimatları takip etmesi gerekir.

Tüm yasal tarayıcıların listesine buradan bakabilirsiniz.

Kötü niyetli robotların (kötü amaçlı yazılım, casus yazılım, e-posta toplayıcıları vb.) bu protokolleri takip etmeyebileceğini unutmayın. Bu nedenle, Robots.txt aracılığıyla engellediğiniz sayfalarda bot trafiği görebilirsiniz.

Ayrıca, sorgulanabilir hiçbir şey için kullanılmayan REP standartlarına uymayan robotlar da vardır.

Herhangi bir sitenin Robots Txt dosyasını görmek için URL:

https:// site adresi//robots.txt

Örneğin Facebook'un Robots Txt dosyası:

Robot txt dosyası oluşturma

Ve işte Google'ın Robots.txt dosyası:

Robot txt dosyası oluşturmak - Google robot text

ROBOTS TXT KULLANIMI

Robots.txt bir web sitesi için gerekli bir belge değildir. Siteniz bu dosya olmadan mükemmel bir şekilde sıralanabilir ve büyüyebilir.

Ancak, Robots.txt kullanarak bazı faydalar sağlar:

  • Özel klasörleri taramaktan kurtarın - Mükemmel olmasa da, botları özel klasörleri taramaktan alıkoyar hale getirmek, onları en azından indekslemek için çok daha zor hale getirecektir - en azından meşru botlar için (arama motoru örümcekleri gibi).
  • Kaynak kullanımını azaltın - Bir bot sitenizi tararken, bant genişliğinizi ve sunucu kaynaklarınızı tüketir - gerçek ziyaretçiler için daha iyi harcanacak kaynaklar. Çok fazla içeriğe sahip siteler için bu, maliyetleri artırabilir ve gerçek ziyaretçilere kötü bir deneyim sağlayabilir. Kaynakları korumak için komut dosyalarına, önemsiz görüntülere vb. erişimi engellemek için Robots.txt dosyasını kullanabilirsiniz.
  • Önemli sayfaları önceliklendirin - Arama motoru örümceklerinin, sitenizdeki (sayfalar gibi) önemli sayfaları taramasını, gereksiz sayfalar (örneğin, arama sorgularından elde edilen sonuçlar gibi) yoluyla kazara dökülmesini engellemezsiniz. Bu işe yaramaz sayfaları engelleyerek, hangi sayfalara odaklanacağını önceliklendirebilirsiniz.

ROBOTS TXT DOSYANIZI NASIL BULURSUNUZ?

Adından da anlaşılacağı gibi, Robots.txt basit bir metin dosyasıdır.

Bu dosya web sitenizin kök dizininde saklanır. Bunu bulmak için, FTP aracınızı açın ve public_html altında web sitenizin dizinine gidin.

Robots txt dosyası nerede bulunur

Açmak için Not Defteri gibi herhangi bir metin düzenleyiciyi kullanın. Böyle bir şey görebilirsiniz:

Robots txt dosyasını açma

Sitenizin kök dizininde herhangi bir Robots.txt dosyası görmeyeceksiniz. Bu durumda, kendiniz bir Robots.txt dosyası oluşturmanız gerekir.

ROBOTS TXT DOSYASI NASIL OLUŞTURULUR?

Robots.txt temel bir metin dosyası olduğundan, oluşturmak ÇOK basit - sadece bir metin editörü açın ve boş bir dosyayı robots.txt olarak kaydedin .

Bu dosyayı sunucunuza yüklemek için, web sunucunuza giriş yapmak için FTP aracınızı kullanın.

Ardından public_html klasörünü açın ve sitenizin kök dizinini açın.

Web barındırıcınızın nasıl yapılandırıldığına bağlı olarak, sitenizin kök dizini doğrudan public_html klasöründe olabilir. Veya bunun içinde bir klasör olabilir.

Sitenizin kök dizini açıldıktan sonra, Robots.txt dosyasını sürükleyip bırakın.

FTP ile robots txt yükleme

Alternatif olarak, doğrudan Rob düzenleyicinizden Robots.txt dosyasını oluşturabilirsiniz.

Bunu yapmak için site kök dizini açın ve Sağ Tıkla -> Yeni dosya oluştur.

İletişim kutusunda, “robots.txt” yazın (tırnak işareti olmadan) ve Tamam'a basın.

robots txt dosyası oluşturma

İçinde yeni bir robots.txt dosyası görmelisiniz:

Robots txt dosyası

Son olarak, Robots.txt dosyası için doğru dosya izni ayarladığınızdan emin olun. Dosyayı okumak düzenlemek için sadece kendinizi yetkilendirmenize yarar.

Robots.txt dosyanız izin kodu olarak “0644” göstermelidir.

Eğer değilse, Robots.txt dosyanızı sağ tıklayın ve “Dosya izinleri…” ni seçin.

robots txt dosyası okuma izni

Simdi siteniz için tamamen işlevsel bir Robots.txt dosyası var!

Ama bu dosya ile gerçekten ne yapabilirsiniz?

Daha sonra, sitenize erişimi kontrol etmek için kullanabileceğiniz bazı genel talimatlar göstereceğim.

ROBOTS TXT DOSYASI NASIL KULLANILIR?

Robots.txt dosyasının temel olarak robotların sitenizle nasıl etkileşimde bulunduğunu kontrol ettiğini unutmayın.

Arama motorlarının sitenizin tamamına erişmesini engellemek mi istiyorsunuzSadece Robots.txt'deki izinleri değiştirin.

Bing'in iletişim sayfanızı dizine eklemesini engellemek mi istiyorsunuzBunu sen de yapabilirsin.

Kendi başına, Robots.txt dosyası SEO'nuzu geliştirmez, ancak sitenizdeki tarayıcı davranışını kontrol etmek için kullanabilirsiniz.

Dosya eklemek veya değiştirmek için, FTP düzenleyicinizde açın ve metni doğrudan ekleyin. Dosyayı kaydettikten sonra değişiklikler hemen yansıtılacaktır.

Robots.txt dosyanızda kullanabileceğiniz bazı komutlar şunlardır:


1- Tüm botları engelleyin

Tüm robotları sitenizi taramaktan engellemek mi istiyorsunuz?

Bu kodu Robots.txt dosyanıza ekleyin:

User-agent: *
Disallow: /

Dosyanızda alttaki gibi görünecektir.

Robots Txt ile tüm botları engelleme

Basitçe söylemek gerekirse, bu komut, user-agent (*) botlara sitenizdeki herhangi bir dosya veya klasöre erişmemesini söyler.

Açılımlara bakarsak daha net anlarız:

  • User-agent: * - Yıldız işareti (*), her nesne için geçerli olan bir karakteridir (dosya adı veya bu durumda bot gibi). Bilgisayarınızda “* .txt” için arama yaparsanız, her dosyayı .txt uzantısıyla gösterir. Burada yıldız işareti, komutunuzun her kullanıcı aracısı için geçerli olduğu anlamına gelir .
  • Disallow: / - “Disallow” bir botun taranmasını engelleyen bir robots.txt komutudur. Tek eğik çizgi (/) bu komutu kök dizine uyguladığınız anlamına gelir.

Üyelik sitesi gibi herhangi bir özel web sitesi çalıştırırsanız bu idealdir Ancak, bu durumun Google’ın sitenizi taramasından kaynaklanan tüm meşru botları durduracağını unutmayın. Dikkatle kullanın.


2- Tüm botların belirli bir klasöre erişimini engelleyin

Botların belirli bir klasörü taramasını ve dizine eklemesini önlemek istiyorsanız ne yapmalısınız?

Örneğin / images klasörü?

Bu komutu kullan:

User-agent: *
Disallow: /[folder_name]/

Botların / images klasörüne erişmesini durdurmak isterseniz, komut şöyle görünecektir:

Robots txt dosyası oluşturma

/ Images klasörü sadece bir örnektir. Bu klasörü taramaktan botları engellemen gerektiğini söylemiyorum. Neyi engellemek isterseniz, images yerine onu eklemelisiniz.

Arama motorları genellikle görüntülerin taranmasını engelleyen siteleri sevmez, bu yüzden bu komutu kullandığınızda dikkatli olun.


3- Sadece belirli botları engelleyin

Googlebot gibi belirli bir robotun sitenize erişmesini engellemek isterseniz ne yapmalısınız?

İşte bunun için kod:

User-agent: [robot adı]
Disallow: /

Örneğin, Googlebot’u sitenizden engellemek isterseniz, kullandığınız şey budur:

robots txt ile bot engelleme

Her yasal bot veya kullanıcı aracısının belirli bir adı vardır. Google’ın örümcek, örneğin, "Googlebot" olarak adlandırılır. Microsoft, hem "msnbot" hem de "bingbot" çalıştırır. Yahoo'nun botu “Yahoo! Slurp” vs gibi...

Yukarıdaki komut, sitenizin tamamından belirli bir botu engeller. Googlebot, yalnızca bir örnek olarak kullanılmaktadır. Çoğu zaman Google’ı asla web sitenizi taramadan men etmek istemezsiniz. 


4- Sadece belirli dosyaların taranmasını engelleme

Robot Hariç Tutma Protokolü, robot erişimini engellemek istediğiniz dosya ve klasör üzerinde iyi kontrol sağlar.

Bir dosyanın herhangi bir robot tarafından taranmasını engellemek için kullanabileceğiniz komut şöyledir:

User-agent: *
Disallow: /[folder_name]/[file_name.extension]

Yani klasör adı ve dosya adı.

Yani, “images” klasöründen “img_0001.png” adlı bir dosyayı engellemek isterseniz, şu komutu kullanırsınız:

robots txt ile tek dosya engelleme

5- Engellenen bir klasörün içindeki dosyaya erişim izni verme

“Disallow” komutu, botların bir klasöre veya dosyaya erişmesini engeller.

"Allow" komutu tam tersini yapar.

“Allow” (İzin Ver) komutu, eğer eski bir dosyayı hedefliyorsa “Disallow” komutunun yerine geçer.

Bu, bir klasöre erişimi engelleyebileceğiniz, ancak botların klasör içindeki tek bir dosyaya erişmesine izin verebileceğiniz anlamına gelir.

Kullanılacak biçim şöyledir:

User-agent: *
Disallow: /[folder_name]/
Allow: /[folder_name]/[file_name.extension]/

Genellikle çok teknik ve kafa karıştırıcı konulara fazlaca girmem. Bu konuya da girmek niyetinde değildim, fakat gelen sorular nedeniyle yazmaya karar verdim.

Yinede bu bölümü sadece bu kadarla geçmek istiyorum. Çünkü çok fazla kafa karışıklığına neden olabilecek detaylar var ve kaş yapayım derken göz çıkarmak istemiyorum.


6- Botların çok sık taramasını geciktirme

User-agent: *
Crawl-Delay: 30

Bu komut, tüm botlara tarama istekleri arasında en az 30 saniye beklemesini bildirir.

Tarama gecikme komutu, sık güncellenen içeriğe (Twitter gibi) sahip büyük sitelerde sıklıkla kullanılır. Bu komut, botlara sonraki istekler arasında minimum bir süre beklemesini söyler.

Bu, sunucunun farklı botlardan aynı anda çok fazla istekle boğulmamasını sağlar.

Örneğin, Twitter'ın Robots.txt dosyası, botlara taramaların arasında en az 1 saniye süre olması gerektiği talimatını veriyor.

tarama geciktirme

Ayrı botlar için tarama gecikmesini bile kontrol edebilirsiniz. Bu, çok fazla botun sitenizi aynı anda taramasını sağlamaz.

Örneğin, aşağıdaki gibi bir komut kümeniz olabilir:

Robots txt dosyası ile tarama geciktirme

Her dakika (Twitter gibi) güncellenen binlerce yeni sayfadan oluşan büyük bir site çalıştırmadığınız sürece bu komutu kullanmanız gerekmeyecektir. 

Robots.txt kullanırken yapılan hatalar

Robots.txt dosyası, sitenizdeki bot davranışını kontrol etmek için güçlü bir araçtır.

Ancak, doğru kullanılmadığı takdirde SEO felaketine yol açabilir.


HATA 1 - İçeriğin dizine alınmasını engellemek için robots.txt dosyasını kullanmak

Robots.txt dosyasındaki bir klasöre “Disallow” yazarsanız, yasal botlar onu taramaz.

Ancak bu iki şeyi dikkatden kaçırmamak gerekir:

  • Botlar harici kaynaklardan bağlanan klasörün içeriğini tarar. Bir başka site engellenen klasörünüzdeki bir dosyaya bağlanırsa, botlar bir dizinden bunu takip eder.
  • Rogue botları - spam gönderenler, casus yazılımlar, kötü amaçlı yazılımlar vs. - genellikle Robots.txt talimatlarını yok sayar.

Bu, Robots.txt öğesinin içeriğin dizine alınmasını önlemek için kötü bir araç olduğu anlamına gelir.

Bunun yerine 'meta noindex' etiketini kullanın.

Dizine almak istemediğiniz sayfalarda aşağıdaki etiketi ekleyin:

<meta name = ”robots” content = ”noindex”>

Bu, bir sayfanın dizine alınmasını engellemek için önerilen, SEO dostu yöntemdir (yine de spam göndericilerini engellemez).

Yoast SEO veya All in One SEO gibi bir WordPress eklentisi kullanıyorsanız; Bunu herhangi bir kod düzenlemeden yapabilirsiniz. Örneğin, Yoast SEO eklentisinde, noindex etiketini aşağıdaki gibi bir yazı / sayfa temelinde ekleyebilirsiniz:

robots txt noindex

Sadece açın ve yazı/ sayfa ve Yoast SEO kutusunun içindeki çarkı tıklayın. Ardından, 'Meta robot dizini'nin yanındaki açılır menüyü tıklayın. 


HATA 2 - Özel içeriği korumak için robots.txt dosyasını kullanmak

Özel içeriğiniz varsa - örneğin, bir e-posta kursu için PDF'ler - dizinin Robots.txt dosyası aracılığıyla engellenmesi yardımcı olacaktır, ancak bu yeterli değildir.

İşte nedeni:

Harici kaynaklardan bağlanırsa içeriğiniz yine de dizine eklenebilir. Ayrıca, spam botlar hala onu tarar.

Tüm özel içeriği bir girişin arkasında tutmak daha iyi bir yöntemdir. Bu, her hangi bir meşru veya spam botun içeriğinize erişemeyeceğini garanti edecektir.

Dezavantajı, ziyaretçilerinizin doğrudan erişemeyecek olmaları ve en az iki adımda ulaşacak olmalarıdır. Ancak buna değer.

HATA 3 - Yinelenen içeriğin dizine eklenmesini engellemek için Robot.txt kullanmak

SEO söz konusu olduğunda, yinelenen içerik büyük bir sorundur.

Ancak, bu içeriğin dizine alınmasını önlemek için Robots.txt kullanılması çözüm değildir. Arama motoru örümceklerinin bu içeriği harici kaynaklar aracılığıyla bulamayacaklarına dair bir garanti yoktur.

Yinelenen içeriğin dizine eklenmesini önlemek için 3 yol var:

  • Yinelenen içeriği sil - Bu, içeriğin tamamen silinmesine neden olur. Bununla birlikte, bu, arama motorlarını pek de ideal bir yol olmayan 404 sayfaya yönlendirdiğiniz anlamına gelir. Bu nedenle, silinmesi önerilmez .
  • 301 yönlendirme kullan - 301 yönlendirmesi, arama motorlarına (ve ziyaretçilere) bir sayfanın yeni bir konuma taşındığını bildirir. Orijinal içeriğinize ziyaretçi çekmek için yinelenen içeriğe bir 301 yönlendirmesi eklemeniz yeterlidir.
  • Rel = ”canonical” etiketi ekle - Bu etiket, 301 yönlendirmesinin bir 'meta' sürümüdür. "Rel = canonical" etiketi, belirli bir sayfanın orijinal URL'sini Google'a bildirir. Örneğin bu kod: 
    <link href = ” http://siteadı.com/original-icerik ” rel = ”canonical” />
    WordPress kullanıyorsanız, bu etiketi Yoast SEO veya All in One SEO kullanarak eklemek kolaydır.

Ziyaretçilerin yinelenen içeriğe erişmesini istiyorsanız, rel = ”canonical” etiketini kullanın. Ziyaretçilerin veya botların içeriğe erişmesini istemiyorsanız - 301 yönlendirmesini kullanın.

Ya da SEO'nuzu etkileyecekleri için dikkatli olun.


Robots.txt dosyası, arama motoru örümceklerinin ve diğer botların sitenizle etkileşimde bulunma biçimini şekillendirmede kullanışlı bir araçtır. Doğru kullanıldığında, sıralamalarınız üzerinde olumlu bir etkiye sahip olabilir ve sitenizin taranmasını kolaylaştırabilir.

Robots.txt'nin nasıl çalıştığını, nasıl kurulduğunu ve bunları kullanmanın bazı yaygın yollarını öğrenmek için bu kılavuzu kullanın. Ve yukarıda bahsettiğimiz hatalardan kaçının.

Görüş ekleyin 0 yorum