אינדקס הוא תהליך סריקת קבצים הנמצאים במשאב אינטרנט על ידי רובוט חיפוש. הליך זה מתבצע כך שהאתר יהיה זמין בתוצאות החיפוש לשאילתות שונות במנוע החיפוש. בין מנועי החיפוש הגדולים ביותר כיום ניתן למנות את Yandex, שמבצעת סריקה זו בדרכה שלה.
הוראות
שלב 1
האינדקס של אתר האינטרנט מתבצע על ידי תוכניות אוטומטיות מיוחדות - רובוטים לחיפוש, העוקבים באופן אוטומטי אחר הופעתם של אתרים חדשים ברשת, וסורקים ללא הרף דפי אינטרנט הנמצאים באינטרנט, קבצים וקישורים אליהם בכל משאב.
שלב 2
כדי לסרוק, הרובוט עובר לספריה בה נמצא המשאב בשרת מסוים. בבחירת אתר חדש, הרובוט מונחה על ידי זמינותו. לדוגמא, יש דעה כי יאנדקס סורק תחילה אתרים שנוצרו בשפה הרוסית וברוסית - ru, rf, su או ua, ורק אחר כך עובר לאזורים אחרים.
שלב 3
הרובוט מנווט לאתר וסורק את מבנהו, מחפש תחילה קבצים המעידים על חיפוש נוסף. לדוגמה, אתר נסרק לאתר Sitemap.xml או robots.txt. ניתן להשתמש בקבצים אלה כדי לקבוע את ההתנהגות של רובוט החיפוש בעת הסריקה. באמצעות מפת האתר (sitemap.xml), הרובוט מקבל מושג מדויק יותר על מבנה המשאב. מנהל האתר משתמש ב- robots.txt כדי להגדיר קבצים שלא היה רוצה שיוצגו בתוצאות החיפוש. למשל, זה יכול להיות מידע אישי או נתונים לא רצויים אחרים.
שלב 4
לאחר שסרק את שני המסמכים הללו וקיבל את ההוראות הדרושות, הרובוט מתחיל לנתח את קוד ה- HTML ולעבד את התגים שהתקבלו. כברירת מחדל, בהעדר קובץ robots.txt, מנוע החיפוש מתחיל לעבד את כל המסמכים המאוחסנים בשרת.
שלב 5
על ידי לחיצה על קישורים במסמכים, הרובוט מקבל גם מידע על אתרים אחרים שעומדים בתור לסריקה בעקבות משאב זה. הקבצים הנסרקים באתר נשמרים כהעתק טקסט ומבנה בשרתים במרכזי הנתונים של Yandex.
שלב 6
הצורך בסריקה מחודשת נקבע אוטומטית על ידי רובוטים. התוכנית משווה את תוצאת הסריקה הקיימת עם הגרסה המעודכנת של האתר כאשר היא עוברת שוב את האינדקס. אם הנתונים שקיבלה התוכנית שונים, העתק האתר מתעדכן גם בשרת Yandex.