robots.txt

robots.txt نام فایلی است که برای پیاده‌سازی پروتکل حذف روبات‌ها استفاده می‌شود ، استانداردی که توسط وب‌سایت‌ها برای نشان دادن به خزنده‌های وب و سایر روبات‌های وب مورد استفاده قرار می‌گیرد.

این استاندارد که در سال 1994 ایجاد شد، بر انطباق داوطلبانه متکی است . ربات‌های مخرب می‌توانند از فایل به‌عنوان دایرکتوری برای بازدید از صفحات استفاده کنند، اگرچه نهادهای استاندارد از مقابله با این موضوع با امنیت از طریق مبهم بودن جلوگیری می‌کنند . برخی از سایت های آرشیوی robots.txt را نادیده می گیرند. این استاندارد در دهه 1990 برای کاهش اضافه بار سرور مورد استفاده قرار گرفت . در دهه 2020 بسیاری از وب سایت ها شروع به انکار ربات هایی کردند که اطلاعاتی را برای هوش مصنوعی مولد جمع آوری می کنند .

فایل "robots.txt" را می توان همراه با نقشه های سایت ، یکی دیگر از استانداردهای گنجاندن ربات برای وب سایت ها استفاده کرد.

تاریخچه

این استاندارد توسط Martijn Koster [ ^1]^[2] هنگام کار برای Nexor ^[3] در فوریه 1994 ^[4] در لیست پستی www-talk ، کانال اصلی ارتباطی برای فعالیت های مرتبط با WWW در آن زمان، پیشنهاد شد . چارلز استروس ادعا می کند که کوستر را تحریک کرده است تا robots.txt را پیشنهاد کند، پس از اینکه او یک خزنده وب بد رفتاری نوشت که به طور ناخواسته باعث حمله انکار سرویس به سرور Koster شد. ^[5]

استاندارد، در ابتدا RobotsNotWanted.txt، به توسعه دهندگان وب اجازه می داد تا مشخص کنند که ربات ها به وب سایت خود دسترسی نداشته باشند یا ربات ها به چه صفحاتی دسترسی نداشته باشند. اینترنت در سال 1994 به اندازه کافی کوچک بود که می توانست فهرست کاملی از تمام ربات ها را حفظ کند. اضافه بار سرور یک نگرانی اصلی بود. در ژوئن 1994 به یک استاندارد واقعی تبدیل شد . ^[6] بیشتر رعایت شد، از جمله موتورهای جستجویی مانند WebCrawler ، Lycos ، و AltaVista . ^[7]

در 1 ژوئیه 2019، گوگل پیشنهاد پروتکل حذف ربات ها را به عنوان یک استاندارد رسمی تحت گروه ضربت مهندسی اینترنت اعلام کرد . ^[8] یک استاندارد پیشنهادی ^[9] در سپتامبر 2022 با نام RFC 9309 منتشر شد.

استاندارد

هنگامی که مالک سایت می خواهد دستورالعمل هایی را به ربات های وب ارائه دهد، یک فایل متنی به نام robots.txt را در ریشه سلسله مراتب وب سایت قرار می دهد (به عنوان مثال https://www.example.com/robots.txt ). این فایل متنی حاوی دستورالعمل ها در قالب خاصی است (به مثال های زیر مراجعه کنید). روبات‌هایی که دستورات را دنبال می‌کنند، سعی می‌کنند این فایل را واکشی کنند و قبل از واکشی هر فایل دیگری از وب‌سایت، دستورالعمل‌ها را مطالعه کنند . اگر این فایل وجود نداشته باشد، ربات‌های وب فرض می‌کنند که مالک وب‌سایت نمی‌خواهد برای خزیدن کل سایت محدودیتی قائل شود.

یک فایل robots.txt حاوی دستورالعمل‌هایی برای ربات‌ها است که نشان می‌دهد به کدام صفحات وب می‌توانند و نمی‌توانند دسترسی داشته باشند. فایل‌های Robots.txt برای خزنده‌های وب از موتورهای جستجو مانند Google بسیار مهم هستند.

یک فایل robots.txt در یک وب‌سایت به‌عنوان درخواستی عمل می‌کند که روبات‌های مشخص شده هنگام خزیدن یک سایت، فایل‌ها یا دایرکتوری‌های مشخص‌شده را نادیده می‌گیرند. این ممکن است، برای مثال، به دلیل ترجیح دادن حریم خصوصی از نتایج موتورهای جستجو، یا این باور که محتوای فهرست های انتخابی ممکن است گمراه کننده یا بی ربط به دسته بندی سایت به عنوان یک کل باشد، یا به دلیل تمایل به برنامه فقط روی داده های خاصی کار می کند. پیوندهای صفحات فهرست شده در robots.txt همچنان می توانند در نتایج جستجو ظاهر شوند، اگر از صفحه ای که خزیده شده به آن پیوند داده شوند. ^[10]

یک فایل robots.txt یک مبدا را پوشش می دهد . برای وب سایت هایی با چندین زیر دامنه، هر زیر دامنه باید فایل robots.txt خود را داشته باشد. اگر example.com یک فایل robots.txt داشت اما a.example.com نداشت، قوانینی که برای example.com اعمال می‌شد برای a.example.com اعمال نمی‌شد . علاوه بر این، هر پروتکل و پورت به فایل robots.txt خود نیاز دارد. http://example.com/robots.txt برای صفحات تحت http://example.com:8080/ یا https://example.com/ اعمال نمی شود .

انطباق

پروتکل robots.txt به طور گسترده توسط اپراتورهای ربات رعایت می شود. ^[6]

موتورهای جستجو

برخی از موتورهای جستجوی اصلی پیرو این استاندارد عبارتند از: Ask، ^[11] AOL، ^[12] Baidu، ^[13] Bing، ^[14] DuckDuckGo، ^[15] Google، ^[16] Yahoo!، ^[17] و Yandex. ^[18]

سایت های آرشیوی

برخی از پروژه های آرشیو وب، robots.txt را نادیده می گیرند. تیم آرشیو از فایل برای کشف پیوندهای بیشتر، مانند نقشه سایت استفاده می کند . ^[19] یکی از بنیانگذاران جیسون اسکات گفت که فایل robots.txt بدون بررسی و به حال خود رها شدن، تضمین می‌کند که هیچ انعکاس یا مرجعی برای مواردی که ممکن است کاربرد عمومی و معنایی فراتر از زمینه وب‌سایت داشته باشند، وجود ندارد. ^[20] در سال 2017، آرشیو اینترنت اعلام کرد که پیروی از دستورالعمل‌های robots.txt را متوقف خواهد کرد. ^[21]^[6] با توجه به Digital Trends ، این به دنبال استفاده گسترده از robots.txt برای حذف سایت‌های تاریخی از نتایج موتورهای جستجو، و در تضاد با هدف غیرانتفاعی برای بایگانی "عکس‌های فوری" از اینترنت همانطور که قبلاً وجود داشت، بود. ^[22]

هوش مصنوعی

از دهه 2020، اپراتورهای وب شروع به استفاده از robots.txt کردند تا از دسترسی به ربات‌هایی که داده‌های آموزشی برای هوش مصنوعی تولیدی را جمع‌آوری می‌کنند، جلوگیری کنند . در سال 2023، Originality.AI دریافت که 306 وب سایت از هزار وب سایت پربازدید، GPTBot OpenAI را در فایل robots.txt خود مسدود کردند و 85 وب سایت Google -Extended را مسدود کردند. بسیاری از فایل‌های robots.txt GPTBot را به‌عنوان تنها رباتی که صراحتاً در همه صفحات غیرمجاز است نام‌گذاری می‌کنند. ممانعت از دسترسی به GPTBot در بین وب سایت های خبری مانند بی بی سی و نیویورک تایمز رایج بود . در سال 2023، میزبان وبلاگ Medium اعلام کرد که دسترسی به تمام خزنده‌های وب هوش مصنوعی را ممنوع می‌کند زیرا «شرکت‌های هوش مصنوعی ارزشی را از نویسندگان به منظور ارسال هرزنامه به خوانندگان اینترنتی دریافت کرده‌اند». ^[6]

GPTBot با استاندارد robots.txt مطابقت دارد و به اپراتورهای وب توصیه می‌کند که چگونه آن را غیرمجاز کنند، اما دیوید پیرس از The Verge گفت که این تنها پس از «آموزش مدل‌های اساسی که آن را بسیار قدرتمند کرده‌اند» آغاز شد. همچنین برخی از ربات ها هم برای موتورهای جستجو و هم برای هوش مصنوعی استفاده می شوند و ممکن است مسدود کردن تنها یکی از این گزینه ها غیرممکن باشد. ^[6]404 رسانه گزارش داد که شرکت‌هایی مانند Anthropic و Perplexity.ai با تغییر نام یا چرخاندن اسکراپرهای جدید به جای آنهایی که در لیست‌های بلاک محبوب ظاهر می‌شوند، robots.txt را دور زدند . ^[23]

امنیت

علیرغم استفاده از اصطلاحات "اجازه دادن" و "عدم مجاز کردن"، این پروتکل صرفاً مشاوره ای است و بر انطباق ربات وب متکی است . نمی تواند هیچ یک از موارد ذکر شده در پرونده را اجرا کند. ^[24] بعید است که روبات های وب مخرب به robots.txt احترام بگذارند. برخی حتی ممکن است از robots.txt به عنوان راهنما برای یافتن پیوندهای غیرمجاز استفاده کنند و مستقیماً به آنها مراجعه کنند. در حالی که گاهی اوقات ادعا می شود که این یک خطر امنیتی است، ^[25] این نوع امنیت از طریق مبهم بودن توسط نهادهای استاندارد منع می شود. مؤسسه ملی استانداردها و فناوری (NIST) در ایالات متحده به طور خاص در برابر این عمل توصیه می کند: "امنیت سیستم نباید به محرمانه بودن پیاده سازی یا اجزای آن بستگی داشته باشد." ^[26] در زمینه فایل‌های robots.txt، امنیت از طریق مبهم به عنوان یک تکنیک امنیتی توصیه نمی‌شود. ^[27]

جایگزین ها

بسیاری از ربات‌ها هنگام واکشی محتوا، یک عامل کاربر ویژه را به سرور وب ارسال می‌کنند. ^[28] یک مدیر وب همچنین می‌تواند سرور را به گونه‌ای پیکربندی کند که به‌طور خودکار خرابی را بازگرداند (یا محتوای جایگزین را ارسال کند ) هنگامی که اتصالی را با استفاده از یکی از روبات‌ها تشخیص داد. ^[29]^[30]

برخی از سایت‌ها، مانند Google ، humans.txtفایلی را میزبانی می‌کنند که اطلاعاتی را برای خواندن انسان‌ها نمایش می‌دهد. ^[31] برخی از سایت‌ها مانند GitHub humans.txt را به صفحه About هدایت می‌کنند . ^[32]

پیش از این، گوگل یک فایل جوک میزبانی کرده بود که به ترمیناتور/killer-robots.txt دستور داده بود بنیانگذاران شرکت لری پیج و سرگئی برین را نکشند . ^[33]^[34]

نمونه ها

این مثال به همه ربات‌ها می‌گوید که می‌توانند از همه فایل‌ها بازدید کنند، زیرا علامت عام *مخفف همه روبات‌ها است و Disallowدستورالعمل هیچ ارزشی ندارد، یعنی هیچ صفحه‌ای غیرمجاز نیست.

عامل کاربر: *غیر مجاز:

عامل کاربر: *اجازه می دهد: /

همین نتیجه را می توان با یک فایل robots.txt خالی یا مفقود به دست آورد.

این مثال به همه ربات‌ها می‌گوید که از یک وب‌سایت دور بمانند:

عامل کاربر: *غیر مجاز:/

این مثال به همه ربات ها می گوید که سه دایرکتوری را وارد نکنند:

عامل کاربر: *غیر مجاز: /cgi-bin/غیر مجاز: /tmp/غیر مجاز: /junk/

این مثال به همه ربات ها می گوید که از یک فایل خاص دوری کنند:

عامل کاربر: *غیر مجاز: /directory/file.html

تمام فایل های دیگر در دایرکتوری مشخص شده پردازش خواهند شد.

عامل کاربر: BadBot # "BadBot" را با عامل کاربر واقعی ربات جایگزین کنیدغیر مجاز:/

این مثال به دو ربات خاص می گوید که وارد یک دایرکتوری خاص نشوند:

عامل کاربر: BadBot # "BadBot" را با عامل کاربر واقعی ربات جایگزین کنیدعامل کاربر: Googlebotغیر مجاز: /private/

مثالی که نشان می دهد چگونه می توان از نظرات استفاده کرد:

# نظرات بعد از نماد "#" در ابتدای یک خط یا بعد از یک دستورالعمل ظاهر می شوندعامل کاربر: * # مطابقت با همه ربات هاغیر مجاز: / # آنها را بیرون نگه دارید

همچنین می توان چندین ربات را با قوانین خاص خود فهرست کرد. رشته ربات واقعی توسط خزنده تعریف می شود. چند اپراتور ربات، مانند Google ، از رشته‌های عامل کاربر متعددی پشتیبانی می‌کنند که به اپراتور اجازه می‌دهد با استفاده از رشته‌های عامل کاربر خاص، دسترسی به زیرمجموعه‌ای از خدمات خود را رد کند. ^[16]

مثالی برای نمایش چندین عامل کاربر:

عامل کاربر: googlebot # همه خدمات GoogleDisallow: /private/ # Disallow this directoryعامل کاربر: googlebot-news # فقط سرویس خبریDisallow: / # غیر مجاز همه چیزعامل کاربر: * # هر رباتDisallow: /something/ # Disallow this directory

پسوندهای غیر استاندارد

دستورالعمل Crawl-Delay

مقدار تأخیر خزیدن توسط برخی خزنده ها پشتیبانی می شود تا بازدیدهای خود از میزبان را کاهش دهند. از آنجایی که این مقدار بخشی از استاندارد نیست، تفسیر آن به خواندن آن توسط خزنده بستگی دارد. زمانی استفاده می‌شود که بازدیدهای متعدد از ربات‌ها باعث کاهش سرعت میزبان شود. Yandex مقدار را به عنوان تعداد ثانیه های انتظار بین بازدیدهای بعدی تفسیر می کند. ^[18] بینگ تاخیر خزیدن را به اندازه یک پنجره زمانی (از 1 تا 30 ثانیه) تعریف می‌کند که طی آن BingBot تنها یک بار به یک وب‌سایت دسترسی خواهد داشت. ^[35] گوگل این دستورالعمل را نادیده می گیرد، ^[36] اما یک رابط در کنسول جستجوی خود برای وب مسترها فراهم می کند تا بازدیدهای بعدی Googlebot را کنترل کند. ^[37]

عامل کاربر: bingbotاجازه می دهد: /تاخیر خزیدن: 10

نقشه سایت

برخی از خزنده‌ها از یک Sitemapدستورالعمل پشتیبانی می‌کنند و به چندین نقشه سایت اجازه می‌دهند یکسان باشندrobots.txtبه شکل : ^[38]Sitemap: full-url

نقشه سایت: http://www.example.com/sitemap.xml

مسابقه جهانی "*".

استاندارد حذف ربات به کاراکتر "*" در Disallow:بیانیه اشاره نمی کند. ^[39]

متا تگ ها و هدرها

علاوه بر فایل‌های robots.txt سطح ریشه، دستورالعمل‌های حذف ربات‌ها را می‌توان با استفاده از متا تگ‌های Robots و هدرهای HTTP X-Robots-Tag در سطح گران‌تری اعمال کرد. متا تگ robots را نمی توان برای فایل های غیر HTML مانند تصاویر، فایل های متنی یا اسناد PDF استفاده کرد. از طرف دیگر، X-Robots-Tag را می توان با استفاده از فایل های htaccess. و httpd.conf به فایل های غیر HTML اضافه کرد . ^[40]

یک متا تگ "noindex".

< meta  name = "ربات ها"  محتوا = "noindex"  />

هدر پاسخ HTTP "noindex".

X-Robots-Tag: noindex

X-Robots-Tag تنها پس از درخواست صفحه و پاسخ سرور، و متا تگ robots تنها پس از بارگیری صفحه مؤثر است، در حالی که robots.txt قبل از درخواست صفحه مؤثر است. بنابراین اگر یک صفحه توسط یک فایل robots.txt حذف شود، هر متا تگ روبات یا هدر X-Robots-Tag به طور موثر نادیده گرفته می شود زیرا ربات در وهله اول آنها را نمی بیند. ^[40]

حداکثر اندازه یک فایل robots.txt

پروتکل حذف ربات ها از خزنده ها می خواهد که حداقل 500 کیلو بایت (512000 بایت) از فایل های robots.txt را تجزیه کنند، ^[41] که گوگل آن را به عنوان محدودیت اندازه فایل 500 کیلوبایتی برای فایل های robots.txt حفظ می کند. ^[42]

همچنین ببینید

ads.txt، استانداردی برای فهرست کردن فروشندگان مجاز آگهی
security.txt، فایلی برای تشریح فرآیندی که محققان امنیتی باید دنبال کنند تا آسیب‌پذیری‌های امنیتی را گزارش کنند
eBay v. Bidder's Edge
پروتکل دسترسی خودکار به محتوا - یک پیشنهاد ناموفق برای گسترش robots.txt
BotSeer – اکنون موتور جستجوی غیرفعال برای فایل‌های robots.txt
خزیدن وب توزیع شده
خزنده متمرکز
آرشیو اینترنت
عناصر متا برای موتورهای جستجو
برنامه ملی کتابخانه دیجیتال (NDLP)
برنامه ملی زیرساخت و حفظ اطلاعات دیجیتال (NDIIPP)
nofollow
noindex
Perma.cc
نقشه های سایت
تله عنکبوت
آرشیو وب
خزنده وب

مراجع

↑ «تاریخی». Greenhills.co.uk بایگانی شده از نسخه اصلی در 2017-04-03 . بازیابی شده 2017-03-03 .
↑ فیلدینگ، روی (1994). "حفظ اطلاعات فرامتن توزیع شده: به وب MOMspider خوش آمدید" (پست اسکریپت) . اولین کنفرانس بین المللی وب جهانی ژنو. بایگانی شده از نسخه اصلی در 2013-09-27 . بازبینی شده در 25 سپتامبر 2013 .
↑ «صفحات ربات های وب». Robotstxt.org. 30-06-1994. بایگانی شده از نسخه اصلی در 2014-01-12 . بازیابی شده در 29-12-2013 .
↑ کوستر، مارتین (25 فوریه 1994). "مهم: عنکبوت ها، ربات ها و سرگردانان وب". لیست پستی www-talk . بایگانی شده از نسخه اصلی ( پیام بایگانی شده Hypermail ) در 29 اکتبر 2013.
↑ «چگونه در پایان به اینجا رسیدم، قسمت پنجم: «چیزها فقط می توانند بهتر شوند!». خاطرات چارلی . 19 ژوئن 2006. بایگانی شده از نسخه اصلی در 2013-11-25 . بازبینی شده در 19 آوریل 2014 .
↑ abcde Pierce, David (14 فوریه 2024). "فایل متنی که اینترنت را اجرا می کند". آستانه . بازبینی شده در 16 مارس 2024 .
↑ بری شوارتز (30 ژوئن 2014). "Robots.txt 20 سال مسدود کردن موتورهای جستجو را جشن می گیرد". زمین موتور جستجو بایگانی شده از نسخه اصلی در 2015-09-07 . بازیابی 2015-11-19 .
↑ «رسمی کردن مشخصات پروتکل حذف روبات». وبلاگ رسمی وب مستر گوگل . بایگانی شده از نسخه اصلی در 2019-07-10 . بازیابی شده در 2019-07-10 .
^ کوستر، م. ایلیز، جی. زلر، اچ. Sassman, L. (سپتامبر 2022). پروتکل حذف ربات ها IETF doi : 10.17487/RFC9309 . RFC 9309. استاندارد پیشنهادی
↑ «URLهای بدون خزش در نتایج جستجو». یوتیوب. Oct 5, 2009. بایگانی شده از نسخه اصلی در 2014-01-06 . بازیابی شده در 29-12-2013 .
↑ «درباره Ask.com: Webmasters». About.ask.com بایگانی شده از نسخه اصلی در 27 ژانویه 2013 . بازبینی شده در 16 فوریه 2013 .
↑ «درباره جستجوی AOL». Search.aol.com . بایگانی شده از نسخه اصلی در 13 دسامبر 2012 . بازبینی شده در 16 فوریه 2013 .
↑ «بایدوسپایدر». Baidu.com . بایگانی شده از نسخه اصلی در 6 اوت 2013 . بازبینی شده در 16 فوریه 2013 .
↑ «پروتکل حذف ربات ها: پیوستن به یکدیگر برای ارائه مستندات بهتر». Blogs.bing.com بایگانی شده از نسخه اصلی در 2014-08-18 . بازبینی شده در 16 فوریه 2013 .
↑ «DuckDuckGo Bot». DuckDuckGo.com . بایگانی شده از نسخه اصلی در 16 فوریه 2017 . بازبینی شده در 25 آوریل 2017 .
^ ab "Webmasters: Robots.txt Specifications". توسعه دهندگان گوگل بایگانی شده از نسخه اصلی در 2013-01-15 . بازبینی شده در 16 فوریه 2013 .
^ "ارسال وب سایت خود به جستجوی یاهو". بایگانی شده از نسخه اصلی در 2013-01-21 . بازبینی شده در 16 فوریه 2013 .
^ ab "استفاده از robots.txt". Help.yandex.com . بایگانی شده از نسخه اصلی در 2013-01-25 . بازبینی شده در 16 فوریه 2013 .
↑ «ArchiveBot: رفتار بد». wiki.archiveteam.org . تیم آرشیو بایگانی شده از نسخه اصلی در 10 اکتبر 2022 . بازیابی شده در 10 اکتبر 2022 .
^ جیسون اسکات . "Robots.txt یک یادداشت خودکشی است". تیم آرشیو بایگانی شده از نسخه اصلی در 2017-02-18 . بازبینی شده در 18 فوریه 2017 .
↑ "Robots.txt که برای موتورهای جستجو ساخته شده است، برای آرشیوهای وب خوب کار نمی کند | وبلاگ های آرشیو اینترنتی". blog.archive.org . 17 آوریل 2017. بایگانی شده از نسخه اصلی در 2018-12-04 . بازیابی شده در 2018-12-01 .
↑ جونز، براد (24 آوریل 2017). "بایگانی اینترنت فایل های Robots.txt را برای حفظ دقت نادیده می گیرد". گرایش های دیجیتال بایگانی شده از نسخه اصلی در 2017-05-16 . بازبینی شده در 8 مه 2017 .
↑ کوبلر، جیسون (29-07-2024). "وب سایت ها خراش دهنده های اشتباه هوش مصنوعی را مسدود می کنند (زیرا شرکت های هوش مصنوعی به ساخت موارد جدید ادامه می دهند)". 404 رسانه . بازیابی شده در 2024-07-29 .
^ "Block URLs with robots.txt: درباره فایل های robots.txt بیاموزید". بایگانی شده از نسخه اصلی در 2015-08-14 . بازیابی 2015-08-10 .
↑ "Robots.txt به هکرها مکان هایی را می گوید که نمی خواهید آنها را ببینند". ثبت نام . بایگانی شده از نسخه اصلی در 2015-08-21 . بازبینی شده در 12 آگوست 2015 .
^ اسکارفون، کالیفرنیا؛ یانسن، دبلیو. تریسی، ام. (ژوئیه 2008). "راهنمای امنیت سرور عمومی" (PDF) . موسسه ملی استاندارد و فناوری . doi :10.6028/NIST.SP.800-123. بایگانی شده (PDF) از نسخه اصلی در 2011-10-08 . بازبینی شده در 12 آگوست 2015 .
↑ Sverre H. Huseby (2004). کد بی گناه: یک زنگ هشدار امنیتی برای برنامه نویسان وب. جان وایلی و پسران ص 91-92. شابک 9780470857472. بایگانی شده از نسخه اصلی در 2016-04-01 . بازیابی شده در 12-08-2015 .
↑ «فهرست عوامل کاربر (عنکبوت ها، روبات ها، مرورگر)». User-agents.org. بایگانی شده از نسخه اصلی در 2014-01-07 . بازیابی شده در 29-12-2013 .
↑ «کنترل دسترسی - سرور HTTP آپاچی». Httpd.apache.org. بایگانی شده از نسخه اصلی در 2013-12-29 . بازیابی شده در 29-12-2013 .
↑ «رد کردن رشته‌ها برای قوانین فیلتر: سایت رسمی مایکروسافت IIS». Iis.net. 06/11/2013. بایگانی شده از نسخه اصلی در 01-01-2014 . بازیابی شده در 29-12-2013 .
↑ «Google humans.txt». بایگانی شده از نسخه اصلی در ۲۴ ژانویه ۲۰۱۷ . بازیابی شده در 3 اکتبر 2019 .
↑ «Github humans.txt». GitHub . بایگانی شده از نسخه اصلی در 30 مه 2016 . بازیابی شده در 3 اکتبر 2019 .
↑ نیومن، لیلی هی (03-07-2014). "آیا این یک تخم مرغ عید پاک گوگل است یا مدرکی است که Skynet در واقع در حال توطئه سلطه بر جهان است؟". مجله اسلیت . بایگانی شده از نسخه اصلی در 2018-11-18 . بازیابی شده در 2019-10-03 .
^ "/killer-robots.txt". 2018-01-10. بایگانی شده از نسخه اصلی در 2018-01-10 . بازیابی شده در 2018-05-25 .
↑ «خزیدن یا خزیدن، این سؤال BingBot است». 3 مه 2012. بایگانی شده از نسخه اصلی در 2016-02-03 . بازبینی شده در 9 فوریه 2016 .
^ "چگونه گوگل مشخصات robots.txt را تفسیر می کند". مرکز جستجوی گوگل 23/05/2024 . بازیابی 2024-10-06 .
↑ «تغییر نرخ خزیدن Googlebot - Search Console Help». support.google.com . بایگانی شده از نسخه اصلی در 2018-11-18 . بازبینی شده در 22 اکتبر 2018 .
↑ "Yahoo! Search Blog - مدیران وب‌سایت‌ها اکنون می‌توانند به صورت خودکار با نقشه‌های سایت کشف کنند". بایگانی شده از نسخه اصلی در 2009-03-05 . بازیابی شده در 2009-03-23 .
↑ «مشخصات Robots.txt». توسعه دهندگان گوگل بایگانی شده از نسخه اصلی در ۲ نوامبر ۲۰۱۹ . بازبینی شده در 15 فوریه 2020 .
^ ab "متا تگ Robots و مشخصات هدر HTTP X-Robots-Tag - وب مسترها - توسعه دهندگان گوگل". بایگانی شده از نسخه اصلی در 2013-08-08 . بازیابی شده در 2013-08-17 .
^ کوستر، م. ایلیز، جی. زلر، اچ. Sassman, L. (سپتامبر 2022). پروتکل حذف ربات ها IETF doi : 10.17487/RFC9309 . RFC 9309. استاندارد پیشنهادی ثانیه 2.5: محدودیت ها.
↑ «Google چگونه مشخصات robots.txt را تفسیر می‌کند | مستندات». توسعه دهندگان گوگل بایگانی شده از نسخه اصلی در 2022-10-17 . بازیابی 2022-10-17 .

در ادامه مطلب

آلین، بابی (5 ژوئیه 2024). "خزنده های وب هوش مصنوعی در حال اجرا هستند". همه چیز در نظر گرفته شده است . NPR بایگانی شده از نسخه اصلی در 6 ژوئیه 2024 . بازبینی شده در 6 ژوئیه 2024 .

لینک های خارجی

وب سایت رسمی