موتورهاي جستجو به دو دسته کلي تقسيم مي‌شوند. موتورهاي جستجوي پيمايشي Ùˆ Ùهرستهاي تکميل دستي. هر کدام از آنها براي تکميل Ùهرست خود از روشهاي متÙاوتي استÙاده مي‌کنند Ú©Ù‡ هر ÙŠÚ© را بطور جداگانه مورد بررسي قرار مي‌دهيم:
موتورهاي جستجوي پيمايشي يا Crawler-Based Search Engines
موتورهاي جستجوي پيمايشي مانند Google ليست خود را بصورت خودکار تشکيل مي‌دهند. آنها وب را پيمايش کرده Ùˆ سپس کاربران آنچه را Ú©Ù‡ مي‌خواهند از ميانشان جستجو مي‌کنند. اگر شما در صÙØÙ‡ وب خود تغييراتي را اعمال نماييد، موتورهاي جستجوي پيمايشي آنها را به خودي خود مي‌يابند Ùˆ سپس اين تغييرات ليست خواهند شد. عنوان، متن Ùˆ ديگر عناصر صÙØه، همگي شامل اين ليست خواهند بود.
Ùهرستهاي تکميل دستي يا Human-Powered Directories
ÙŠÚ© Ùهرست تکميل دستي مانند ÙŠÚ© Open Directory مثل Dmoz وابسته به کاربراني است Ú©Ù‡ آنرا تکميل مي‌کنند. شما صÙØÙ‡ مورد نظر را به همراه توضيØÙŠ مختصر در Ùهرست ثبت مي‌کنيد يا اين کار توسط ويراستارهايي Ú©Ù‡ براي آن Ùهرست در نظر گرÙته شده انجام مي‌شود.
عمل جستجو در اين Øالت تنها بر روي توضيØات ثبت شده صورت مي‌گيرد Ùˆ در صورت تغيير روي صÙØÙ‡ وب، روي Ùهرست تغييري بوجود نخواهد آورد. چيزهايي Ú©Ù‡ براي بهبود ÙŠÚ© Ùهرست‌بندي در ÙŠÚ© موتور جستجو Ù…Ùيد هستند، تاثيري بر بهبود Ùهرست‌بندي ÙŠÚ© دايرکتوري ندارند. تنها استثناء اين است Ú©Ù‡ ÙŠÚ© سايت خوب با پايگاه داده‌اي با Ù…Øتواي خوب شانس بيشتري به نسبت ÙŠÚ© سايت با پايگاه داده ضعي٠دارد.
موتورهاي جستجوي ترکيبي با نتايج مختلط
به موتورهايي اطلاق مي‌شود Ú©Ù‡ هر دو Øالت را در کنار هم نمايش مي‌دهند. غالبا، ÙŠÚ© موتور جستوي ترکيبي در صورت نمايش نتيجه جستجو از هر ÙŠÚ© از دسته‌هاي Ùوق، نتايج Øاصل از دسته ديگر را هم مورد توجه قرار مي‌دهد. مثلا موتور جستجوي MSN بيشتر نتايج Øاصل از Ùهرستهاي تکميل دستي را نشان مي‌دهد اما در کنار آن نيم نگاهي هم به نتايج Øاصل از جستجوي پيمايشي دارد.
بررسي يک موتور جستجوي پيمايشي
موتورهاي جستجوي پيمايشي شامل سه عنصر اصلي هستند. اولي در Ø§ØµØ·Ù„Ø§Ø Ø¹Ù†Ú©Ø¨ÙˆØª (Spider) است Ú©Ù‡ پيمايشگر (Crawler) هم ناميده مي‌شود. پيمايشگر همينکه به ÙŠÚ© صÙØÙ‡ مي‌رسد، آنرا مي‌خواند Ùˆ سپس لينکهاي آن به صÙØات ديگر را دنبال مي‌نمايد. اين چيزيست Ú©Ù‡ براي ÙŠÚ© سايت پيمايش‌شده (Crawled) اتÙاق اÙتاده است. پيمايشگر با ÙŠÚ© روال منظم، مثلا ÙŠÚ© يا دو بار در ماه به سايت مراجعه مي‌کند تا تغييرات موجود در آنرا بيابد. هر چيزي Ú©Ù‡ پيمايشگر بيابد به عنصر دوم ÙŠÚ© موتور جستجو يعني Ùهرست انتقال پيدا مي کند. Ùهرست اغلب به کاتالوگي بزرگ اطلاق مي‌شود Ú©Ù‡ شامل ليستي از آنچه است Ú©Ù‡ پيمايشگر ياÙته است. مانند کتاب عظيمي Ú©Ù‡ Ùهرستي را از آنچه Ú©Ù‡ پيمايشگرها از صÙØات وب ياÙته‌اند، شامل شده است. هرگاه سايتي دچار تغيير شود، اين Ùهرست نيز به روز خواهد شد.
از زماني Ú©Ù‡ تغييري در صÙØه‌اي از سايت ايجاد شده تا هنگاميکه آن تغيير در Ùهرست موتور جستجو ثبت شود مدت زماني طول خواهد کشيد. پس ممکن است Ú©Ù‡ ÙŠÚ© سايت پيمايش‌شده باشد اما Ùهرست‌شده نباشد. تا زمانيکه اين Ùهرست‌بندي براي آن تغيير ثبت نشده باشد، نمي‌توان انتظار داشت Ú©Ù‡ در نتايج جستجو آن تغيير را ببينيم. نرم‌اÙزار موتور جستجو، سومين عنصر ÙŠÚ© موتور جستجو است Ùˆ به برنامه‌اي اطلاق مي‌شود Ú©Ù‡ بصورت هوشمندانه‌اي داده‌هاي موجود در Ùهرست را دسته‌بندي کرده Ùˆ آنها را بر اساس اهميت طبقه‌بندي مي‌کند تا نتيجه جستجو با کلمه‌هاي درخواست شده هر Ú†Ù‡ بيشتر منطبق Ùˆ مربوط باشد.
چگونه موتورهاي جستجو صÙØات وب را رتبه‌بندي مي‌کنند؟
وقتي شما از موتورهاي جستجوي پيمايشي چيزي را براي جستجو درخواست مي‌نماييد، تقريبا بلاÙاصله اين جستجو از ميان ميليونها صÙØÙ‡ صورت گرÙته Ùˆ مرتب مي‌شود بطوريکه مربوط‌ترين آنها نسبت به موضوع مورد درخواست شما رتبه بالاتري را اØراز نمايد.
البته بايد در نظر داشته باشيد Ú©Ù‡ موتورهاي جستجو همواره نتايج درستي را به شما ارائه نخواهند داد Ùˆ مسلما صÙØات نامربوطي را هم در نتيجه جستجو درياÙت مي‌کنيد Ùˆ گاهي اوقات مجبور هستيد Ú©Ù‡ جستجوي دقيقتري را براي آنچه Ú©Ù‡ مي‌خواهيد انجام دهيد اما موتورهاي جستجو کار Øيرت‌انگيز ديگري نيز انجام مي‌دهند.
Ùرض کنيد Ú©Ù‡ شما به ÙŠÚ© کتابدار مراجعه مي کنيد Ùˆ از وي درباره «سÙر» کتابي مي خواهيد. او براي اينکه جواب درستي به شما بدهد Ùˆ کتاب Ù…Ùيدي را به شما ارائه نمايد با پرسيدن سوؤالاتي از شما Ùˆ با استÙاده از تجارب خود کتاب مورد نظرتان را به شما تØويل خواهد داد. موتورهاي جستجو همچنين توانايي ندارند اما به نوعي آنها را شبيه‌سازي مي‌کنند.
پس موتورهاي جستجوي پيمايشي چگونه به جواب مورد نظرتان از ميان ميليونها صÙØÙ‡ وب مي‌رسند؟ آنها ÙŠÚ© مجموعه از قوانين را دارند Ú©Ù‡ الگوريتم ناميده مي‌شود. الگوريتمهاي مورد نظر براي هر موتور جستجويي خاص Ùˆ تقريبا سري هستند اما به هر Øال از قوانين زير پيروي مي‌کنند:
مکان و تکرار
ÙŠÚ©ÙŠ از قوانين اصلي در الگوريتمهاي رتبه‌بندي موقعيت Ùˆ تعداد تکرار کلماتي است Ú©Ù‡ در صÙØÙ‡ مورد استÙاده قرار گرÙته‌اند Ú©Ù‡ بطور خلاصه روش مکان - تکرار (Location/Frequency Methode) ناميده ميشود.
کتابدار مذکور را به خاطر مي‌آورÙد؟ لازم است Ú©Ù‡ او کتابهاي در رابطه با کلمه «سÙر» را طبق درخواست شما بيابد. او در ÙˆØله اول اØساس مي‌کند Ú©Ù‡ شما به دنبال کتابهايي هستيد Ú©Ù‡ در نامشان کلمه «سÙر» را شامل شوند. موتورهاي جستجو هم دقيقا همان کار را انجام مي‌دهند. آنها هم صÙØاتي را برايتان ليست ميکنند Ú©Ù‡ در برچسب Title موجود در کد HTML Øاوی کلمه «سÙر» باشند.
موتورهاي جستجو همچنين به دنبال کلمه مورد نظر در بالاي صÙØات Ùˆ يا در ابتداي پاراگراÙها هستند. آنها Ùرض مي‌کنند Ú©Ù‡ صÙØاتي Ú©Ù‡ Øاوي آن کلمه در بالاي خود Ùˆ يا در ابتداي پاراگراÙها Ùˆ عناوين باشند به نتيجه مورد نظر شما مربوط تر هستند. تکرار يا Frequesncy عامل بزرگ Ùˆ مهم ديگري است Ú©Ù‡ موتورهاي جستجو از طريق آن صÙØات مربوط را شناسايي مي‌نمايند. موتورهاي جستجو صÙØات را تجزيه کرده Ùˆ با توجه به تکرار کلمه‌اي در صÙØÙ‡ متوجه مي‌شوند Ú©Ù‡ آن کلمه نسبت به ديگر کلمات اهميت بيشتري در آن صÙØÙ‡ دارد Ùˆ آن صÙØÙ‡ را در درجه بالاتري نسبت به صÙØات ديگر قرار مي‌دهند.
دستور آشپزي
خب آشپزي Ú†Ù‡ ربطي به موتورهاي جستجو دارد؟ رابطه در اينجاست. همانطور Ú©Ù‡ آشپزهاي ØرÙه‌اي دستورات آشپزي خود را در Ù„ÙاÙÙ‡ Ù†Ú¯Ù‡ مي‌دارند Ùˆ مقدار Ùˆ چگونگي ادويه‌هاي اÙزودني به غذاهاي خود را اÙشا نمي‌کنند، چگونگي کارکرد دقيق موتورهاي جستجو درباره روشهايي از قبيل مکان-تکرار Ùاش نمي‌شود Ùˆ هر موتور جستجويي روش خود را دنبال مي‌کند. به همين دليل است Ú©Ù‡ وقتي شما کلمات واØدي را در موتورهاي متÙاوت جستجو مي‌کنيد، به نتايج متÙاوتي مي‌رسيد.
برخي موتورهاي جستجو نسبت به برخي ديگر صÙØات بيشتري را Ùهرست کرده‌اند. نتيجه اين خواهد شد Ú©Ù‡ هيچ موتور جستجويي نتيجه جستجوي مشترکي با موتور ديگر نخواهد داشت Ùˆ شما نتايج متÙاوتي را از آنها درياÙت مي‌کنيد. موتورهاي جستجو همچنين ممکن است Ú©Ù‡ برخي از صÙØات را از Ùهرست خود Øذ٠کنند البته به شرطی Ú©Ù‡ آن صÙØات با Spam شدن سعی در گول زدن موتورهای جستجوگر داشته باشند. Spamming روشی است Ú©Ù‡ برخی از صÙØات برای اØراز رتبه بالاتر در موتورهاي جستجو در پيش مي‌گيرند Ùˆ آن به اين صورت است Ú©Ù‡ با تکرار بيش از Øد کلمات بطور عمدي سعي در بر هم زدن تعادل Ùˆ در نتيجه Ùريب موتورهاي جستجو دارند. آنها سعي دارند Ú©Ù‡ با اÙزايش عامل تکرار، در رتبه بالاتري قرار بگيرند. موتورهاي جستجو راههاي متنوعی برای جلوگيری از Spamming دارند Ùˆ در اين راه از گزارشهاي کاربران خود نيز بهره مي‌برند.
عوامل خارج از صÙØÙ‡
موتورهاي جستجوي پيمايشي اکنون تجربه Ùراواني در رابطه با وب مسترهايي دارند Ú©Ù‡ صÙØات خود را براي کسب رتبه بهتر مرتبا بازنويسي مي‌کنند. بعضي از وب مسترهاي خبره Øتي ممکن است به سمت روشهايي مانند مهندسي معکوس براي کش٠چگونگي روشهاي مکان-تکرار بروند. به همين دليل، تمامي موتورهاي جستجوي معرو٠از روشهاي امتيازبندي «خارج از صÙØه» استÙاده مي‌کنند. عوامل خارج از صÙØÙ‡ عواملي هستند Ú©Ù‡ از تيررس وب‌مسترها خارجند Ùˆ آنها نمي‌توانند در آن دخالت کنند Ùˆ مساله مهم در آن تØليل ارتباطات Ùˆ لينکهاست. بوسيله تجزيه صÙØات، موتورهاي جستجو لينکها را بررسي کرده Ùˆ از Ù…Øبوبيت آنها مي‌Ùهمند Ú©Ù‡ آن صÙØات مهم بوده Ùˆ شايسته ترÙيع رتبه هستند. بعلاوه تکنيکهاي پيشرÙته به گونه‌اي است Ú©Ù‡ از ايجاد لينکهاي مصتوعي توسط وب‌مسترها براي Ùريب موتورهاي جستجو جلوگيري مي‌نمايد. علاوه بر آن موتورهاي جستجو بررسي مي‌کنند Ú©Ù‡ کدام صÙØÙ‡ توسط ÙŠÚ© کاربر Ú©Ù‡ کلمه‌اي را جستجو کرده انتخاب مي‌شود Ùˆ سپس با توجه به تعداد انتخابها، رتبه صÙØÙ‡ مورد نظر را تعيين کرده Ùˆ مقام آنرا در نتيجه جستجو جابجا مي‌نمايند.