הרובוט של מנועי החיפוש אחראי על סריקת דפי אינטרנט. התוכנית קוראת אוטומטית נתונים מכל האתרים ורושמת אותם בצורה מובנת עבור מנוע החיפוש עצמו, כך שבהמשך המערכת תציג את התוצאות המתאימות ביותר למשתמש.
פונקציות
כל המידע שנוסף לאינדקס נרשם במסד נתונים משותף.
רובוט חיפוש הוא תוכנית שעוברת אוטומטית בדפי האינטרנט, מבקשת את המסמכים הדרושים ומקבלת את מבנה האתרים שנסרקו. הרובוט בוחר באופן עצמאי את הדפים לסריקה. ברוב המקרים, אתרים לסריקה נבחרים באופן אקראי.
סוגי בוטים
רובוט שמתפקד כראוי מגדיל משמעותית את העומס ברשת ובשרת, מה שעלול לגרום לכך שהמשאב לא יהיה זמין.
בכל מנוע חיפוש מספר תוכניות הנקראות רובוטים. כל אחד מהם יכול לבצע פונקציה ספציפית. לדוגמה, ב- Yandex, חלק מהרובוטים אחראים על סריקת עדכוני RSS, אשר יהיו שימושיים לאינדקס של בלוגים. ישנן גם תוכניות המחפשות תמונות בלבד. עם זאת, הדבר החשוב ביותר הוא בוט האינדקס, המהווה בסיס לכל חיפוש. יש גם רובוט מהיר עזר שנועד לחפש עדכונים על עדכוני חדשות ואירועים.
הליך סריקה
דרך נוספת למנוע סריקת תוכן היא יצירת גישה לאתר דרך לוח הרישום.
בעת ביקור באתר התוכנית סורקת את מערכת הקבצים לאיתור קבצי הוראות קובץ robots.txt. אם יש מסמך, הקריאה בהוראות שנכתבות במסמך מתחילה. Robots.txt יכול לאסור או להפך, לאפשר סריקה של עמודים וקבצים מסוימים באתר.
תהליך הסריקה תלוי בסוג התוכנית. לפעמים רובוטים קוראים רק את כותרות העמודים וכמה פסקאות. בחלק מהמקרים הסריקה מתבצעת בכל המסמך בהתאם לסימון ה- HTML, שיכול לעבוד גם כאמצעי לציון ביטויי מפתח. תוכניות מסוימות מתמחות בתגים מוסתרים או מטא.
מוסיף לרשימה
כל מנהל אתרים יכול למנוע ממנוע החיפוש לסרוק דפים דרך robots.txt או תג META. כמו כן, יוצר האתר יכול להוסיף את האתר באופן ידני לתור ההוספה לאינדקס, אך הוספתו לא אומר שהרובוט יסרוק מיד את העמוד הרצוי. כדי להוסיף אתר לתור, מנועי החיפוש מספקים גם ממשקים מיוחדים. הוספת אתר מאיצה משמעותית את תהליך האינדקס. כמו כן, לצורך רישום מהיר במנוע חיפוש ניתן להשתמש במערכות ניתוח אינטרנט, ספריות אתרים וכו '.