כמות המידע המאוחסנת באינטרנט היא עצומה. אי אפשר למצוא שום דבר ידני בין הנתונים הללו. מנועי חיפוש נקראים לאוטומציה של התהליך. הן מערכות מחשוב שמארגנות נתונים וחיפוש לפי שאילתות.
הוראות
שלב 1
שרתי מנועי החיפוש מריצים כל הזמן תוכניות הנקראות בוטים. בוט הוא קיצור של רובוט. בהתנהגותם הם ממש דומים לרובוטים. על ידי ביקור מעת לעת בכל אתר מהרשימה המאוחסנת בשרת, הם מביאים עותקים מקומיים של כל הטקסטים בהתאם לגירסאות הנוכחיות של אותם טקסטים בדפי אינטרנט. בוטים עוקבים אחר כל הקישורים שהם נתקלים בהם, ואם הם מוצאים דף חדש שנוצר, הם מוסיפים אותו לרשימה ויוצרים עותק מקומי. עותקים אינם מתפרסמים באינטרנט - הם מהווים רק חלק בלתי נפרד מתהליך קבלת רשימת האתרים. המשמעות היא שהפרת זכויות יוצרים אינה מתרחשת.
שלב 2
נסה להזין את אותו ביטוי מספר פעמים לאותו מנוע חיפוש. תגלה שהתוצאות מסתדרות באותו סדר בכל פעם. לעתים רחוקות זה משתנה, לא לעתים קרובות יותר מפעם ביום. הסיבה לכך פשוטה - סדר תוצאות החיפוש נקבע על ידי אלגוריתם מורכב למדי. החישוב לוקח בחשבון את תדירות השימוש במילים מסוימות בדפים, מספר הקישורים לדף זה שנמצא באתרים אחרים, כמו גם מספר גורמים אחרים.
שלב 3
בעלי אתרים, השואפים להביא את המשאבים שלהם לראש הרשימה הזו, מבצעים אופטימיזציה לטקסטים שפורסמו עליהם. אופטימיזציה זו יכולה להיות "לבן" - מותר ישירות על פי הכללים של "מנועי חיפוש", "אפור" - אסור, אך אינו אסור, כמו גם "שחור" - אסור ישירות. במקרה האחרון, האתר עלול להיעלם בקרוב מהרשימה לנצח. אלגוריתמי אופטימיזציה לעיתים מורכבים יותר מאלגוריתמי מיון תוצאות חיפוש.
שלב 4
לאחר הזנת מילת מפתח או ביטוי, התוכנית בשרת מחפשת התאמות בכל העותקים המקומיים של הטקסטים. התוצאות ממוינות לאחר מכן באמצעות האלגוריתם המורכב שלעיל. מערכת ניהול התוכן מייצרת אוטומטית דף שמועבר לדפדפן. לבקשת המשתמש ניתן ליצור את העמודים הבאים ברשימה: שני, שלישי וכן הלאה.