Posted on

منظور از اسپایدر یا Spider ، خزنده یا Crawler در موتورهای جستجو چیه ؟

به نظر شما چیجوریه که موتورهای جستجو در عرض تنها چند میلی ثانیه میلیونا سایت رو جستجو می کنن و به ما نتیجه کار رو نمایش میدن ؟ به محض اینکه شما کلید واژه ای رو در موتور جستجو وارد کنین همه صفحات وب جستجو می شن ؟ جواب این مسئله شک نداشته باشین خیره ، اگه اینجور مسئله ای وجود داشت زمان پاسخگویی موتورهای جستجو شدیدا بالا می رفت. موتورهای جستجو در واقع همه صفحات موجود در اینترنت رو واسه شما در پایگاه داده خود ایندکس یا Index می کنن و بعد از اینکه شما جستجویی رو انجام می دید در واقع موتور جستجو در این پایگاه داده و صفحات ایندکس شده خود به دنبال نتیجه می شه نه در وب سایتا . اما سئوال اصلی اینجا پیش میاد که چیجوری این صفحات در پایگاه داده های موتورهای جستجو قرار می گیرن و چیجوری این پایگاه داده بروز می شه ؟ جواب این مسئله در واقع همون تعریفیه که ما از Spiderا یا Crawlerا می خوایم در این مقاله ارائه بدیم.

اسپایدر یا Spider ، خزنده یا Crawler در SEO معنیش چیه ؟

یه Spider ، یه Crawler از نظر کلمه ای به معنی عنکبوت و خزیدنه. Spiderا یا Crawlerا هر دو در واقع یه چیز هستن ، اونا نرم افزار یا اسکریپت اتوماتیکی هستن که لینکای اینترنتی رو به یه الگوریتم مشخص و هدف دار دنبال می کنن و به وب سایتای جور واجور سر میزنن و محتوای موجود در صفحات سایت رو واسه پایگاه داده های موتورهای جستجو ایندکس می کنن تا این پایگاه داده همیشه به روز باشه. در واقع Crawlerا یه نوع روبات هستن که به شکل روزانه همین عملیات رو انجام میدن. همه اسامی مثل Crawler ، Spider ، Web Spider ، Automatic Indexer همه و همه در واقع یه چیز هستن و فرقی با هم ندارن ، حتی اسامی ممکنه در موتورهای جستجوی جور واجور فرق داشته باشه مثلا موتور جستجوی AltaVisat به Crawler خود Scooter میگه . همه واژه هایی که در طبیعت مشاهده می کنین و در مباحث فنی استفاده میشن یه منشاء منطفی دارن ، زمانیکه ما صحبت از Spider و لینکا می کنیم باید توجه کنیم که عنکبوتا در طبیعت واسه منتقل شدن از یه تار به یه تار دیگه از نخا یا لینکا استفاده می کنن. Spiderا در موتورهای جستجو هم دقیقا همینطوری عملی می کنن اونا فقط می تونن لینکا رو از صفحه ای به صفحه دیگه پیگیری کنن و از یه سایت به یه سایت دیگه برن به این لینکای در اصطلاح SEO فید یا Feed می گن ، این دقیقا همون نکته مهمیه که لینکایی که به سایت شما انجام می شه در پروسه سئو و کارکرد خود سایت شما در موتورهای جستجو تاثیر مستقیم دارن. لینکای مستقیم از وب سایتای دیگه به سایت شما به Spiderا تغذیه بهتری میده . هر چقدر بیشتر به شما لینک داده شه Spiderا بیشتر در سایت شما باقی می مانند و بیشتر از صفحات سایت شما بازدید می کنن.

موتور جستجوی گوگل واسه ایجاد ایندکسا و پایگاه داده جستجوگر خود وابسه به این Spider هاس. Spiderا و Crawlerا از راه لینکایی که از بقیه وب سایتا به سایت شما داده شده وارد صفحات سایت شما می شن اما شما می تونین صفحات سایت خود رو هم به شکل دستی به این Spiderا و موتورهای جستجو معرفی کنین تا Spiderای اون موتور جستجو به صفحه سایت شما مراجعه کنن. اگر می خواین سایت خود رو به شکل دستی در موتورهای جستجوی google و Bing ثبت کنین می تونین به مطلب مهندس پویا فضلعلی با عنوان معرفی سایت به موتورهای جستجو مراجعه کنین. البته این وسط یه نکته رو هم در نظر داشته باشین ، با اینکه این توانایی که شما می تونین سایت خود رو به شکل دستی به موتورهای جستجو معرفی کنین خیلی خوبه اما معمولا اینکار واسه موتورهای جستجویی مثل google پیشنهاد نمی شه چون این موتورهای جستجوی اینترنتی به شکل خودکار سایت شما رو پیدا می کنن و اونا رو در خود ثبت می کنن هر چند واسه Yahoo ممکنه اینکار به درستی انجام نشه. اینکار واسه سایت شما از نظر سئو خیلی خوبه که در چندین موتور جستجوی جور واجور سایت خود رو ثبت کنین ولی اینو حتما درنظر داشته باشین که موتورهای جستجوگری که دارای نرم افزار Spider و Crawler خوبی باشن احتیاجی به ثبت کردن سایت به شکل دستی ندارن.

بعد از اینکه Crawlerای موتورهای جستجو لینکای موجود در وب سایتا رو واسه پایگاه داده مربوطه Index کردن ؛ باید هر چند وقت یه بار این لینکا رو دوباره بررسی کنن و به خاطر همین مجبور هستن دوباره به لینک مربوطه سر بزنن. این سرکشی دوباره از لینکای وب سایتا که Revisit اسمشه براساس یه سری هدف یا Policy انجام می شه. Policy هر موتورجستجوی اینترنتی ممکنه با Policy بقیه موتورهای جستجو فرق داشته باشه. Crawlerا کار آسونی ندارن و مشکلات زیادی در پروسه کارکرد اونا ممکنه پیش بیاد که به طور کامل مربوط به پیچیدگیا و ویژگیای اینترنت داره ، همین مسئله باعث می شه به روز نگه داشتن Indexا در پایگاه داده کار خیلی آسونی هم نباشه ، مهمترین ویژگیای اینترنت که باعث سخت شدن کار Crawlerا می شه به سه قسمت تقسیم می شن.به دلیل حجم و تعداد زیاد صفحات وب در اینترنت سرعت و وهلهای وقتی که صفحات تغییر می کنن خیلی زیاده ، این وسط اضافه شدن صفحات به وب سایتای Dynamic رو هم اضافه کنین که باعث سخت شدن و زمانگیر شدن عملیات Crawl می شه. جور واجور بودن لینکا و URL های اینترنتی باعث می شه که Crawlerا واسه هر کدوم از لینکای صفحات وب موجود در مجموعه خود اولویت بندی یا Prioritization بکنن. انجام عملیات اولویت بندی صفحات وب که به شکل مستقیم مربوط به ترتیب نمایش اونا در یافته های جستجوئه بوسیله چهار عدد Policy مخصوص Crawlerا انجام می شه که معمولا این Policyا واسه همه موتورهای جستجو برابر هستن و تنها کمی فرق دارن ، این Policyا به توضیح زیر هستن :

  • هدف انتخاب یا Selection Policy : این Policy تعیین می کنه که چه صفحاتی واسه Crawl باید دانلود شن؟
  • هدف بازدید دوباره یا Re-Visit Policy : این Policy تعیین می کنه چه وقتی واسه تغییرات صفحات وب باید بررسی شن؟
  • هدف ادب یا Politeness Policy : این Policy تعیین می کنه چیجوری وب سایتا Crawl شن که Overload نداشته باشن؟
  • هدف موازی کاری یا Parallelization Policy : این Policy تعیین می کنه چیجوری Distributed Crawlerا هماهنگ باشن ؟

Crawlerای موتورهای جستجو علاوه بر اینکه از Policyایی که گفته شد واسه اولویت بندی و به کمترین حد ممکن رسوندن پروسه انجام کار واسه بهینه سازی روش هدف دار Crawling خود استفاده می کنن ، نیاز به یه معماری بسیار بهینه سازی شده واسه کار خود هم دارن. همین معماری بسیار قوی و بسیار بهینه سازی شده که باعث می شه سیستمای مورد استفاده در موتورهای جستجو بتونن میلیونا صفحه وب رو فقط در عرض چند هفته دانلود کنن و به لیست Indexای خود اضافه کنن. این معماری ممکنه به نظر کاربران ساده به نظر برسه اما باید پس زمینه کار رو هم دید. تو یه Crawler حرفه ای که در موتورهای جستجو استفاده می شه ، هر صفحه وب اول از اینترنت یا بهتر بگیم از محیط World Wide Web جدا می شه و تو یه نرم افزار downloader بسیار قوی قرار میگیره. آدرسای URL ای که بوسیله این downloader دریافت می شن تو یه صف یا queue قرار می گیرن و بعد به شکل زمانبندی شده و اولویت بندی شده دانلود می شن و به همراه متن و MEAT dataا در درون سیستم ذخیره سازی موتورهای جستجو قرار می گیرن. امروزه Crawlerای حرفه ای در دنیا دیده می شه که مشهورترین و قوی ترین اونا بدون شکر google crawlerه . بدون به کار گیری Search Engine Crawlerا یا همون Spiderا دیگه نه نتیجه ای در موتورهای جستجو به شما نشون داده می شه و نه صفحه ای در این یافته هایآپدیت می شه. امیدوارم مورد توجه شما دوستا قرار گرفته باشه.

منبع: web.itpro