المقدمة
لو عندك موقع إلكتروني، سواء كان كبير أو صغير، أكيد سمعت عن حاجة اسمها robots.txt، الملف ده صغير جدًا لكن ليه دور مهم في إنك تتحكم في طريقة تعامل محركات البحث مع موقعك، في المقال ده هشرحلك ببساطة إيه هو robots.txt، بيشتغل إزاي، وإزاي تستخدمه بطريقة صح علشان تحمي صفحاتك وتحسّن أداء موقعك على الإنترنت.
يعني إيه robots.txt
ده ملف نصي عادي بيتم وضعه في root path للموقع الخاص بيك، علي سبيل المثال مثلاً:
https://example.com/robots.txt
الملف ده وظيفته إنه يوجّه ال محركات البحث (زي Googlebot و Bingbot) ويقولهم الصفحات أو الملفات اللي ينفع يزوروها، واللي لأ.
شكل ملف robots.txt
الملف يكتب بصيغة بسيطة جدًا، تعال نشوف مثال:
User-agent: *
Disallow: /admin/
Allow: /public/
Sitemap: https://example.com/sitemap.xml
- User-agent: *: معناها التعليمات دي لكل محركات البحث.
- Disallow: /admin/: يعني البوتات ماتدخلش مجلد الأدمن.
- Allow: /public/: يعني الجزء ده مفتوح ليهم.
- Sitemap: https://example.com/sitemap.xml : معناها دا المكان لخريطه الموقع
وممكن تخصص التعليمات لبوت معين، زي Googlebot:
User-agent: Googlebot
Disallow: /private/
أهمية ملف robots.txt
في كذا سبب يخليك تحتاج تضيف ملف robots.txt لموقعك:
- تحجب صفحات معينة: زي صفحة الأدمن أو لوحة التحكم، أو صفحات تحت التطوير.
- تحافظ على أداء الموقع: بدل ما البوتات تزحف في كل الصفحات، تقدر من خلال ال robots.txt توجهها على الصفحات المهمة بس.
- تقلل من الزحف على ملفات تقيلة: زي صور ضخمة أو ملفات تجريبية.
- بيسهل الوصول ل sitemap الي بيمثل الخريطة للموقع الخاص بك، وعلاقه الصفحات ببعضها .
طب يعني ايه اصلا backlinks وهل مهمه ولأ ؟؟
Backlinks
الـ Backlinks أو الروابط الخلفية ببساطة كده هي الروابط اللي بتكون موجودة في مواقع تانية وبتشاور علي موقعك. يعني لما موقع تاني يكتب مقالة أو محتوى، ويذكر فيه لينك لموقعك — ده اسمه backlink.
مثال بسيط: لو عندك مدونة بتتكلم عن الاكل او الطعام، وموقع كبير زي "فتافيت" مثلا كتب عنك وقال "للوصفات الصحية اذهب المدونة دي"، وحط لينك لموقعك... كده أنت أخدت Backlink من موقع قوي .
ازاي امنع ظهور ملف معين في محركات البحث
زي ما ذكرنا قبل كده حظر صفحة معينة او ملف معين باستخدام ملف robots.txt غير كافي بسبب ال backlinks لكن في اكتر من حل منهم .
- استخدام ال meta tags الي اسمها noindex
- استخدام Header اسمه X-Robots-Tag
- وضع password علي الملفات
أولا: باستخدام ال meta tags الي اسمها noindex :
<meta name="robots" content="noindex, nofollow">
ده معناه: انه ببلغ googlebot ميعملش index للصفحة دي ولا يتبع الروابط الي فيها اثناء ال crawling او الزحف، طيب دا كدا هيحل مشاكل الصفحات زي HTML، لكن لو عندي مثلا ملفات pdf او images او فديوهات هنمنع الوصول ليها ازاي هنا بيجي الحل الثاني.
ثانيا باستخدام ال HTTP Header: عن طريق استخدام Header اسمه X-Robots-Tag، علي سبيل المثال لو حبيت امنع google bots من فهرسة ملفات ال pdf باستخدام ال apache server هنستخدم الكود التالي في ملف ال .htaccess
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>
وإذا بنستخدم سيرفر nginx هيكون شكل الكود كالتالي
location ~* \.pdf$ {
add_header X-Robots-Tag "noindex, nofollow";
}
الحل الثالث والأخير وهو وضع password علي الملفات : الحلين الي فاتوا كنا بنتكلم عن الفهرسه او ال indexing يعني امنع ظهور المتحوي في ال SERP (نتائج البحث في جوجل ) بس لو حد عرف يوصل ل ال URL بشكل او باخر هيعرف يوصل للمحتوي وهنا بيجي الحل الثالث وهو وضع password علي الملفات والفايلات المهمه وبالتالي مش هيحصلها indexing ومش هيتم عرضها الا بفك ال password والحل دا بنستخدمه بس في حاله انه محتاج امنع الوصول لصفحات وملفات مهمه علي الموقع، والوصول ليهم يكون مقتصر بس علي اشخاص بعينهم ودا بيكون امن اكتر وبيتم من خلال المسئولين عن السيرفر نفسهم.
في الختام
ملف robots.txt يمكن يكون بسيط، بس ليه تأثير كبير على طريقة ظهور موقعك في محركات البحث. استخدامه الصحيح يساعد في تحسين السيو (SEO)، وتوجيه البوتات بشكل ذكي، ومنعها من إنها تضيع وقتها في صفحات مش مفيدة، دمتم سالمين والي اللقاء في مقال آخر ولا تنسوا اهلنا في غزة من الدعاء.
Discussion