सर्च इंजन क्या है और सर्च इंजन कैसे काम करता है

वर्तमान युग में सर्च इंजन हर किसी के जीवन का एक जरूरी हिस्सा है क्योंकि सर्च इंजन इंटरनेट पर उपलब्ध Valuable, Relevant और Informative Content को खोजने के लिए विभिन्न तरीके प्रदान करता है। इसलिए इस लेख में हम सर्च इंजन के बारे में पढ़ेंगे जैसे सर्च इंजन क्या है, सर्च इंजन कैसे काम करता है और दुनिया के सबसे बेहतर सर्च इंजन कौन-कौन है?

सर्च इंजन क्या है

Search Engine सर्च इंजन एक सॉफ्टवेयर प्रोग्राम है जो इंटरनेट पर उपलब्ध डाटा के असीमित भंडार से यूजर द्वारा सर्च किए गए Keyword को उनके सामने लाता है। सर्च इंजन यूजर द्वारा सर्च किए गए Keyword या Sentence से संबंधित Result को List के रूप में दिखाता है।

सर्च रिजल्ट को दिखाने के लिए सभी Search Engine पहले अपने डेटाबेस से Valuable Results ढूंढते हैं। उन्हें Search Algorithm के आधार पर एक Ordered List बनाने के लिए Sort करते हैं और अंतिम में यूजर्स के सामने प्रदर्शित करते हैं।

Content को List के रूप में Organize करने की प्रक्रिया को आमतौर पर Search Engine Result Page (SERP) के रूप में जाना जाता है। Google, Yahoo!, Bing, YouTube, Yandex और DuckDuckGo सर्च इंजन के कुछ लोकप्रिय उदाहरण है।

नोट:- Web Browser और Search Engine दोनों अलग अलग सॉफ्टवेयर है Web Browser को कंप्यूटर में इनस्टॉल किया जाता है और सर्च इंजन को ब्राउज़र के अंदर जोड़ना होता है आप एक ब्राउज़र में सभी सर्च इंजन का उपयोग कर सकते है। Google Chrome, Mozilla Firefox, Netscape Navigator आदि वेब ब्राउज़र के उदाहरण है।

सर्च इंजन के पार्ट्स

Search Engine के निम्नलिखित पार्ट्स होते हैं

1. Web Crawler

Web Crawler को Search Engine Bot, Web Robot या Web Spyder के रूप में भी जाना जाता है। यह Search Engine Optimization Strategy में एक आवश्यक भूमिका निभाता है। यह मुख्य रूप से एक Software Component है जो वेब पर चलता है फिर इंटरनेट पर सभी सूचनाओं को डाउनलोड और स्टोर करता है।

वेब क्रॉलर की निम्नलिखित विशेषताएं हैं जो सर्च रिजल्ट को Effect कर सकती है-

Included Pages
Excluded Pages
Document Type
Frequency Of Crawling

2. Database

Search Engine Database एक प्रकार का Non Relational Database है। यह वह जगह है जहां सभी Web Information स्टोर की जाती है। इसमें बड़ी संख्या में Web Resources होते है। कुछ सबसे लोकप्रिय सर्च इंजन डेटाबेस Amazon Elastic search Service और Splunk है।

डेटाबेस के दो निम्नलिखित विशेषताएं हैं जो सर्च रिजल्ट को Effectकर सकती है-

Size of The Database
The Freshness of The Database

3. Search Interface

Search Interface सर्च इंजन के सबसे महत्वपूर्ण Components में से एक है यह यूजर और डेटाबेस के बीच का एक इंटरफ़ेस होता है जो मूल रूप से यूजर्स को डेटाबेस का उपयोग करके प्रश्नों का उत्तर खोजने में मदद करता है।

खोज इंटरफ़ेस में निम्नलिखित विशेषताएं हैं जो सर्च रिजल्ट को Effect करती हैं

Operators
Phrase Searching
Truncation

4. Ranking Algorithms

गूगल द्वारा Google Search Algorithm के अनुसार वेब पेज को रैंक करने के लिए Ranking Algorithms का उपयोग किया जाता है।

रैंकिंग एल्गोरिदम की निम्नलिखित विशेषताएं हैं जो सर्च रिजल्ट को Effect करती है-

Location and Frequency
Link Analysis
Click Through Measurement

सर्च इंजन कैसे काम करते हैं

प्रत्येक सर्च इंजन द्वारा निम्नलिखित कार्य किए जाते हैं-

1. Crawling

Crawling पहला Step है जिसमें एक Search Engine World Wide Web पर वेब पेजों को खोजने देखने और डाउनलोड करने के लिए Web Crawler का उपयोग करता है। Crawling Software Robot द्वारा किया जाता है जिसे Spiders या Crawlers के रूप में जाना जाता है। इन रोबोट्स का उपयोग Website Content का Review करने के लिए किया जाता है।

2. Indexing

Indexing वेबसाइटों की एक ऑनलाइन लाइब्रेरी है जिसका उपयोग Crawling के दौरान मिली लिस्ट को छोटा करने, स्टोर करने और व्यवस्थित करने के लिए किया जाता है। एक बार पेज indexed हो जाने पर यह सबसे valuable और सबसे relevant query को दिखाता है।

3. Ranking and Retrieval

रैंकिंग सर्च इंजन का आखिरी स्टेप है इसका उपयोग Content को एक टुकड़ा प्रदान करने के लिए किया जाता है। जो यूजर्स की Query के आधार पर सबसे अच्छा उत्तर होता है। यह वेबसाइट के Top Rank पर Best Content Display करता है।

सर्च इंजन प्रोसेसिंग

सर्च इंजन processing के दो प्रमुख कार्य है

1. Indexing Process

Indexing एक Structure के निर्माण की प्रक्रिया है जो सर्च को सक्षम बनाता है।

Indexing Process में निम्नलिखित 3 ब्लॉक होते हैं-

Text Acquisition:- इसका उपयोग Indexing के लिए दस्तावेजों को पहचानने और स्टोर करने के लिए किया जाता है।

Text Transformation:- यह फाइल को Index या विशेषताओं में बदलने की प्रक्रिया होती है।

Index Creation:- Index Creation Text transformation से आउटपुट लेता है और indexes डाटा सर्च बनाता है। जो Fast Searching को सक्षम बनाता है।

2. Query Process

क्वेरी यूजर्स की सर्च क्वेरी के आधार पर फाइल की सूची तैयार करने की प्रक्रिया होती है।

Query process के निम्नलिखित तीन कार्य होते हैं-

User interaction- User Interaction Content और सर्च इंजन पर सर्च करने वाले यूजर के बीच एक इंटरफ़ेस प्रदान करता है।

Ranking- रैंकिंग सर्च इंजन का मुख्य Component है यह User Interaction से क्वेरी डाटा लेता है और Retrieval Model के आधार पर डाटा की एक रैंक की गई सूची तैयार करता है।

Evaluation- Evaluation का उपयोग Effectiveness और Efficiency को Measure और Monitor करने के लिए किया जाता है। Evaluation Result हमें Search Engine की रैंकिंग में सुधार करने में मदद करता है।

Search Engine Algorithm Update क्या है

Algorithm Instruction का एक सेट होता है जिसका उपयोग हम Infinite Problems को हल करने के लिए करते हैं। समस्या को हल करने के लिए Google Algorithm कुछ नियमों का पालन करता है।

Google Algorithm समझने और उपयोग करने में बहुत जटिल है क्योंकि गूगल अपने एल्गोरिदम को बहुत बार बदल देता है। जो यूजर के लिए यह पहचाना बहुत कठिन है बनाता है कि वर्तमान में गूगल किस एल्गोरिदम में काम कर रहा है।

सर्च इंजन उपयोगकर्ता को उसकी जरूरत की सही जानकारी दिखाने के लिए Algorithm Update करता है जिससे सर्च इंजन बेहतर बनता है।

Google के Algorithm में निम्नलिखित अपडेट हुए हैं।

1. Google Panda

Google Panda Update गूगल के सर्च रिजल्ट में किया गया बड़ा बदलाव था। यह 23 फरवरी 2011 को पेश किया गया एक Search Filter है। पांडा नाम गूगल के इंजीनियर Mr. Navneet panda से लिया गया है जिन्होंने गूगल के लिए गूगल पांडा अपडेट को बनाया।

गूगल पांडा अपडेट करने का उद्देश्य Search Results में Low Quality वाली Content, Duplicate Content और Thin Content को कम करना है। इसमें Search Engine Page Ranking के Top पर Unique और साथ ही Valuable Results शामिल है।

2. Google Penguin

अप्रैल 2012 में गूगल Web Spam Algorithm Update की शुरुआतकी। इस Web Spam Algorithm को बाद में Penguin Algorithm कहा गया। वर्तमान में पेंगुइन गूगल सर्च इंजन एल्गोरिदम का एक हिस्सा है यह मुख्य रूप से Link Spam, Manipulative Link Building Practice के साथ-साथ Webpage Crawler Index होने पर वेबपेज के Scoring को Analyze करने के लिए डिजाइन किया गया है।

3. Google hummingbird

गूगल हमिंग बर्ड को 20 अगस्त 2013 को पेश किया गया था। हमिंग बर्ड बेहतर परिणाम लाने के लिए Search Query में प्रत्येक शब्द पर अधिक ध्यान केंद्रित करता है। यह यूजर को पकड़ने और Best Intent से मेल खाने वाले content खोजने में सक्षम है। हमिंग बर्ड अपडेट का लाभ यह है कि यह तेज सटीक और Semantics Results प्रदान करता है।

4. Google Payday

Google PayDay को एक 11 जून 2013 को पेश किया गया था। यह मुख्य रूप से US Google Payday अपडेट में 0.3% Queries को प्रभावित करता है। जिसका उपयोग उन वेबसाइट की Low Quality Content की पहचान करने के लिए किया जाता है जो रैंक और ट्रैफिक बढ़ाने के लिए विभिन्न Spam Queries का उपयोग करते हैं। Payday का लाभ यह है कि यह Search Queries की रैंकिंग में सुधार करता है।

5. Google Pigeon

Google Pigeon गूगल के एल्गोरिदम में सबसे बड़े अपडेट में से एक है। पिजन अपडेट 24 जुलाई 2014 को लांच किया गया। यह अपडेट Better Visibility के साथ मजबूत और दैनिक उपस्थिति Local Searches को Rewarding करके बेहतर Local Search Results प्रदान करने के लिए डिजाइन किया गया है। यह दूरी और स्थान के आधार पर Search Parameter की रैंकिंग में भी सुधार करता है।

6. Google RankBrain

गूगल का RankBrain एक Machine Learning और Artificial Intelligence System है। इसे 2015 में Bloomberg समाचार के माध्यम से पेश किया गया था। यह गूगल की तीसरी सबसे महत्वपूर्ण रैंकिंग सिस्टम है। इसमें सटीकता के आधार पर Content को Sort करने और अंतिम यूजर्स द्वारा दर्ज की गई खोज क्वेरी के आधार पर सबसे Relevant Results निर्धारित करने की क्षमता है।

7. Google Exact Match Domain

Google EMD को 27 सितंबर 2012 को Content की Quality में सुधार करने के लिए लांच किया गया था। जैसा कि नाम से पता चलता है यह किसी वेबसाइट के कीवर्ड से सटीक रूप से मेल खाता है और गूगल के सर्च रिजल्ट के Lower Rank में Content की Low Quality को कम करता है। गूगल के अनुसार EMD ने 6% English Searches को प्रभावित किया है।

8. Google Page layout algorithm

Google Page layout algorithm को 19 जनवरी 2012 को पेश किया गया था। यह हमें हाई क्वालिटी वाले रिजल्ट को खोजने में मदद करता है जो बहुत आसान है और सर्च इंजन के Top पर दिखाई देते हैं। यह मुख्य रूप से worldwide search request को 1% तक प्रभावित करता है।

दुनिया के लोकप्रिय सर्च इंजन

1. गूगल

गूगल दुनिया के सबसे लोकप्रिय और भरोसेमंद Search Engine में से एक है। इसे 1996 में Sergey Brin और Larry Page ने अपने Research Project के रूप में बनाया था गूगल में Machine Learning, Artificial Intelligence और अन्य Algorithm शामिल है।

अपने यूजर्स को Best Results देने के लिए गूगल रोज सर्च इंजन एल्गोरिदम में सुधार करता है। एक आंकड़े के अनुसार दुनिया भर में 70% से अधिक इंटरनेट यूजर खोज करने के लिए गूगल का उपयोग करते हैं।

2. Bing

Bing search engine Microsoft द्वारा 2009 में पेश किया गया था। यह दुनिया का दूसरा सबसे ज्यादा सर्च किया जाने वाला सर्च इंजन है। यह हमें फोटो, विज्ञापन, वीडियो आदि जैसे विभिन्न टैब में रिजल्ट को फिल्टर करने की अनुमति देता है। बिंग का उपयोग करने का नुकसान यह है कि यह गूगल की तुलना में धीमा परिणाम देता है।

3. DuckDuckGo

DuckDuckGo एक इंटरनेट आधारित सर्च इंजन है जिसकी स्थापना 2008 में हुई थी। यह हमारे पर्सनल डाटा को ट्रैक या स्टोर नहीं करता है। यह उन लोगों के लिए सबसे अच्छा मंच है जो अपनी ब्राउजिंग जानकारी को सुरक्षित और पर्सनल रखना चाहते हैं। लगभग 35 मिलियन यूजर्स इसका उपयोग अपने प्रश्नों को खोजने के लिए करते हैं।

4. YouTube

YouTube की स्थापना 2005 में हुई थी। यह सबसे अच्छा Video Content Delivery Search Engine है। यूट्यूब नई तकनीकों को सीखने का सबसे आसान तरीका प्रदान करता है। वर्तमान में प्रतिमाह 1.5 मिलियन से अधिक यूजर सूचना देखने के लिए यूट्यूब का उपयोग करते हैं। Alexa Traffic Rank के आधार पर यूट्यूब दुनिया में दूसरा सबसे बड़ा सर्च इंजन और तीसरा सबसे ज्यादा देखी जाने वाली वेबसाइट है।

Youtube Search Engine — YouTube Home Page

5. Baidu

Baidu 2000 में पेश किया गया पहला सर्च इंजन है यह चीन में प्रमुख सर्च इंजन है। यह एक फ्री वेब ब्राउज़र है जिसका इस्तेमाल Windows और Android दोनों के लिए किया जा सकता है। यह माइक्रोसॉफ्ट Intel और Qualcomm जैसी कंपनियों के साथ सहयोग करता है। यह Cloud Services Social Networking, मैप, वीडियो, इमेज सर्च और बहुत कुछ सेवाएं प्रदान करता है।

6. Yandex

Yandex की शुरुआत दो Russian Developers ने 1990 में की थी। यह एक मुफ्त ब्राउज़र है जो Windows, MacOS, Android और iOS के लिए उपलब्ध है। इसमें मुख्य रूप से Online Advertising, App Analytics Data Management, Smartphone Technology, Artificial Intelligence साथ ही Alice नामक एक Voice Assistant शामिल है।

7. Yahoo

यह सबसे ज्यादा इस्तेमाल किए जाने वाला इंटरनेट सर्च इंजन और सबसे बड़ा वेब पोर्टल है। यह हजारों Websites और लाखों वेब पेजों को देखने के लिए एक Structure प्रदान करता है। याहू ईमेल सेवाएं हमें एक Huge Market को Capture करने में मदद करती है। इसमें Yahoo Answers, Yahoo Groups, Yahoo Search Engine Yahoo Messenger जैसी विभिन्न सेवाएं शामिल है।

8. Ask

Ask को 1996 में Garrett Gruener और David Warthen द्वारा लांच किया गया था। Ask को डिजाइन करने का उद्देश्य इंटरनेट यूजर द्वारा Submit Questions के आधार पर खोज करना है। यह Google, Bing, DuckDuckGo और Yahoo! जैसे सर्च इंजन की ही जैसा है।

9. Naver

Naver को दक्षिण कोरिया का गूगल भी कहा जाता है। यह Naver Corporation द्वारा संचालित सबसे महत्वपूर्ण Chromium Based Search Engine Platform में से एक है। यह 1999 में पेश किया गया था। यह देश में लगभग 75 प्रतिशत खोजों को कवर करता है। एक आंकड़े के अनुसार इस सर्च इंजन के लगभग 42 मिलियन यूजर है।

सर्च इंजन के फायदे

सर्च इंजन के निम्नलिखित फायदे हैं

हमें Manual रूप से जानकारी खोजने की आवश्यकता को समाप्त करता है और Search Operations को बहुत तेज गति से करता है। जिससे हमारा बहुत ज्यादा समय बचता है।

एक सर्च इंजन का उपयोग करके हम शिक्षा, मनोरंजन, खेल आदि जैसे विभिन्न क्षेत्रों में जानकारी प्राप्त करते हैं। सर्च इंजन से हमें जो जानकारी मिलती है वह Blog, PDF, PPT, Text, Image वीडियो के रूप में होती है।

ज्यादातर सर्च इंजन जैसे Google, Yahoo, Bing और Yandex यूजर को फ्री में Search करने की अनुमति देते हैं। इसलिए सभी यूज़र अपनी आवश्यकता को पूरा करने के लिए फ्री में सर्च कर पाते हैं।

सर्च इंजन हमें particular Keyword के आधार पर Relevant Content की खोज करने में अनुमति देते हैं। एक सर्च इंजन Content की Quality के आधार पर अपने Result Page को Sort करता है इसलिए SERP के Top पर सबसे अच्छे रिजल्ट देख सकते हैं।

सभी सर्च इंजन में Various Variety के Results प्रदान करने की क्षमता होती है।

सर्च इंजन के नुकसान

सर्च इंजन के निम्नलिखित नुकसान है:

कभी-कभी सर्च इंजन Relevant, Valuable और Informative Content प्रदर्शित करने में बहुत अधिक समय लेता है।
सर्च इंजन विशेष रूप से गूगल अक्सर अपने एल्गोरिदम कोड अपडेट करते रहते हैं और उस एल्गोरिदम को खोजना बहुत मुश्किल है जिसमें गूगल चलता है।
सर्च इंजन के कारण हम छोटे-छोटे प्रश्नों को भी हल करने के लिए इसका उपयोग करते हैं।

आशा है Search Engine की जानकारी आपको पसंद आयी होगी।

सर्च इंजन से संबंधित किसी भी प्रश्न के लिए कमेंट करे।