वर्तमान युग में सर्च इंजन हर किसी के जीवन का एक जरूरी हिस्सा है क्योंकि सर्च इंजन इंटरनेट पर उपलब्ध Valuable, Relevant और Informative Content को खोजने के लिए विभिन्न तरीके प्रदान करता है। इसलिए इस लेख में हम सर्च इंजन के बारे में पढ़ेंगे जैसे सर्च इंजन क्या है, सर्च इंजन कैसे काम करता है और दुनिया के सबसे बेहतर सर्च इंजन कौन-कौन है?
सर्च इंजन क्या है
Search Engine सर्च इंजन एक सॉफ्टवेयर प्रोग्राम है जो इंटरनेट पर उपलब्ध डाटा के असीमित भंडार से यूजर द्वारा सर्च किए गए Keyword को उनके सामने लाता है। सर्च इंजन यूजर द्वारा सर्च किए गए Keyword या Sentence से संबंधित Result को List के रूप में दिखाता है।
सर्च रिजल्ट को दिखाने के लिए सभी Search Engine पहले अपने डेटाबेस से Valuable Results ढूंढते हैं। उन्हें Search Algorithm के आधार पर एक Ordered List बनाने के लिए Sort करते हैं और अंतिम में यूजर्स के सामने प्रदर्शित करते हैं।
Content को List के रूप में Organize करने की प्रक्रिया को आमतौर पर Search Engine Result Page (SERP) के रूप में जाना जाता है। Google, Yahoo!, Bing, YouTube, Yandex और DuckDuckGo सर्च इंजन के कुछ लोकप्रिय उदाहरण है।
नोट:- Web Browser और Search Engine दोनों अलग अलग सॉफ्टवेयर है Web Browser को कंप्यूटर में इनस्टॉल किया जाता है और सर्च इंजन को ब्राउज़र के अंदर जोड़ना होता है आप एक ब्राउज़र में सभी सर्च इंजन का उपयोग कर सकते है। Google Chrome, Mozilla Firefox, Netscape Navigator आदि वेब ब्राउज़र के उदाहरण है।
सर्च इंजन के पार्ट्स
Search Engine के निम्नलिखित पार्ट्स होते हैं
1. Web Crawler
Web Crawler को Search Engine Bot, Web Robot या Web Spyder के रूप में भी जाना जाता है। यह Search Engine Optimization Strategy में एक आवश्यक भूमिका निभाता है। यह मुख्य रूप से एक Software Component है जो वेब पर चलता है फिर इंटरनेट पर सभी सूचनाओं को डाउनलोड और स्टोर करता है।
वेब क्रॉलर की निम्नलिखित विशेषताएं हैं जो सर्च रिजल्ट को Effect कर सकती है-
- Included Pages
- Excluded Pages
- Document Type
- Frequency Of Crawling
2. Database
Search Engine Database एक प्रकार का Non Relational Database है। यह वह जगह है जहां सभी Web Information स्टोर की जाती है। इसमें बड़ी संख्या में Web Resources होते है। कुछ सबसे लोकप्रिय सर्च इंजन डेटाबेस Amazon Elastic search Service और Splunk है।
डेटाबेस के दो निम्नलिखित विशेषताएं हैं जो सर्च रिजल्ट को Effectकर सकती है-
- Size of The Database
- The Freshness of The Database
3. Search Interface
Search Interface सर्च इंजन के सबसे महत्वपूर्ण Components में से एक है यह यूजर और डेटाबेस के बीच का एक इंटरफ़ेस होता है जो मूल रूप से यूजर्स को डेटाबेस का उपयोग करके प्रश्नों का उत्तर खोजने में मदद करता है।
खोज इंटरफ़ेस में निम्नलिखित विशेषताएं हैं जो सर्च रिजल्ट को Effect करती हैं
- Operators
- Phrase Searching
- Truncation
4. Ranking Algorithms
गूगल द्वारा Google Search Algorithm के अनुसार वेब पेज को रैंक करने के लिए Ranking Algorithms का उपयोग किया जाता है।
रैंकिंग एल्गोरिदम की निम्नलिखित विशेषताएं हैं जो सर्च रिजल्ट को Effect करती है-
- Location and Frequency
- Link Analysis
- Click Through Measurement
सर्च इंजन कैसे काम करते हैं
प्रत्येक सर्च इंजन द्वारा निम्नलिखित कार्य किए जाते हैं-
1. Crawling
Crawling पहला Step है जिसमें एक Search Engine World Wide Web पर वेब पेजों को खोजने देखने और डाउनलोड करने के लिए Web Crawler का उपयोग करता है। Crawling Software Robot द्वारा किया जाता है जिसे Spiders या Crawlers के रूप में जाना जाता है। इन रोबोट्स का उपयोग Website Content का Review करने के लिए किया जाता है।
2. Indexing
Indexing वेबसाइटों की एक ऑनलाइन लाइब्रेरी है जिसका उपयोग Crawling के दौरान मिली लिस्ट को छोटा करने, स्टोर करने और व्यवस्थित करने के लिए किया जाता है। एक बार पेज indexed हो जाने पर यह सबसे valuable और सबसे relevant query को दिखाता है।
3. Ranking and Retrieval
रैंकिंग सर्च इंजन का आखिरी स्टेप है इसका उपयोग Content को एक टुकड़ा प्रदान करने के लिए किया जाता है। जो यूजर्स की Query के आधार पर सबसे अच्छा उत्तर होता है। यह वेबसाइट के Top Rank पर Best Content Display करता है।
सर्च इंजन प्रोसेसिंग
सर्च इंजन processing के दो प्रमुख कार्य है
1. Indexing Process
Indexing एक Structure के निर्माण की प्रक्रिया है जो सर्च को सक्षम बनाता है।
Indexing Process में निम्नलिखित 3 ब्लॉक होते हैं-
Text Acquisition:- इसका उपयोग Indexing के लिए दस्तावेजों को पहचानने और स्टोर करने के लिए किया जाता है।
Text Transformation:- यह फाइल को Index या विशेषताओं में बदलने की प्रक्रिया होती है।
Index Creation:- Index Creation Text transformation से आउटपुट लेता है और indexes डाटा सर्च बनाता है। जो Fast Searching को सक्षम बनाता है।
2. Query Process
क्वेरी यूजर्स की सर्च क्वेरी के आधार पर फाइल की सूची तैयार करने की प्रक्रिया होती है।
Query process के निम्नलिखित तीन कार्य होते हैं-
User interaction- User Interaction Content और सर्च इंजन पर सर्च करने वाले यूजर के बीच एक इंटरफ़ेस प्रदान करता है।
Ranking- रैंकिंग सर्च इंजन का मुख्य Component है यह User Interaction से क्वेरी डाटा लेता है और Retrieval Model के आधार पर डाटा की एक रैंक की गई सूची तैयार करता है।
Evaluation- Evaluation का उपयोग Effectiveness और Efficiency को Measure और Monitor करने के लिए किया जाता है। Evaluation Result हमें Search Engine की रैंकिंग में सुधार करने में मदद करता है।
Search Engine Algorithm Update क्या है
Algorithm Instruction का एक सेट होता है जिसका उपयोग हम Infinite Problems को हल करने के लिए करते हैं। समस्या को हल करने के लिए Google Algorithm कुछ नियमों का पालन करता है।
Google Algorithm समझने और उपयोग करने में बहुत जटिल है क्योंकि गूगल अपने एल्गोरिदम को बहुत बार बदल देता है। जो यूजर के लिए यह पहचाना बहुत कठिन है बनाता है कि वर्तमान में गूगल किस एल्गोरिदम में काम कर रहा है।
सर्च इंजन उपयोगकर्ता को उसकी जरूरत की सही जानकारी दिखाने के लिए Algorithm Update करता है जिससे सर्च इंजन बेहतर बनता है।
Google के Algorithm में निम्नलिखित अपडेट हुए हैं।
1. Google Panda
Google Panda Update गूगल के सर्च रिजल्ट में किया गया बड़ा बदलाव था। यह 23 फरवरी 2011 को पेश किया गया एक Search Filter है। पांडा नाम गूगल के इंजीनियर Mr. Navneet panda से लिया गया है जिन्होंने गूगल के लिए गूगल पांडा अपडेट को बनाया।
गूगल पांडा अपडेट करने का उद्देश्य Search Results में Low Quality वाली Content, Duplicate Content और Thin Content को कम करना है। इसमें Search Engine Page Ranking के Top पर Unique और साथ ही Valuable Results शामिल है।
2. Google Penguin
अप्रैल 2012 में गूगल Web Spam Algorithm Update की शुरुआतकी। इस Web Spam Algorithm को बाद में Penguin Algorithm कहा गया। वर्तमान में पेंगुइन गूगल सर्च इंजन एल्गोरिदम का एक हिस्सा है यह मुख्य रूप से Link Spam, Manipulative Link Building Practice के साथ-साथ Webpage Crawler Index होने पर वेबपेज के Scoring को Analyze करने के लिए डिजाइन किया गया है।
3. Google hummingbird
गूगल हमिंग बर्ड को 20 अगस्त 2013 को पेश किया गया था। हमिंग बर्ड बेहतर परिणाम लाने के लिए Search Query में प्रत्येक शब्द पर अधिक ध्यान केंद्रित करता है। यह यूजर को पकड़ने और Best Intent से मेल खाने वाले content खोजने में सक्षम है। हमिंग बर्ड अपडेट का लाभ यह है कि यह तेज सटीक और Semantics Results प्रदान करता है।
4. Google Payday
Google PayDay को एक 11 जून 2013 को पेश किया गया था। यह मुख्य रूप से US Google Payday अपडेट में 0.3% Queries को प्रभावित करता है। जिसका उपयोग उन वेबसाइट की Low Quality Content की पहचान करने के लिए किया जाता है जो रैंक और ट्रैफिक बढ़ाने के लिए विभिन्न Spam Queries का उपयोग करते हैं। Payday का लाभ यह है कि यह Search Queries की रैंकिंग में सुधार करता है।
5. Google Pigeon
Google Pigeon गूगल के एल्गोरिदम में सबसे बड़े अपडेट में से एक है। पिजन अपडेट 24 जुलाई 2014 को लांच किया गया। यह अपडेट Better Visibility के साथ मजबूत और दैनिक उपस्थिति Local Searches को Rewarding करके बेहतर Local Search Results प्रदान करने के लिए डिजाइन किया गया है। यह दूरी और स्थान के आधार पर Search Parameter की रैंकिंग में भी सुधार करता है।
6. Google RankBrain
गूगल का RankBrain एक Machine Learning और Artificial Intelligence System है। इसे 2015 में Bloomberg समाचार के माध्यम से पेश किया गया था। यह गूगल की तीसरी सबसे महत्वपूर्ण रैंकिंग सिस्टम है। इसमें सटीकता के आधार पर Content को Sort करने और अंतिम यूजर्स द्वारा दर्ज की गई खोज क्वेरी के आधार पर सबसे Relevant Results निर्धारित करने की क्षमता है।
7. Google Exact Match Domain
Google EMD को 27 सितंबर 2012 को Content की Quality में सुधार करने के लिए लांच किया गया था। जैसा कि नाम से पता चलता है यह किसी वेबसाइट के कीवर्ड से सटीक रूप से मेल खाता है और गूगल के सर्च रिजल्ट के Lower Rank में Content की Low Quality को कम करता है। गूगल के अनुसार EMD ने 6% English Searches को प्रभावित किया है।
8. Google Page layout algorithm
Google Page layout algorithm को 19 जनवरी 2012 को पेश किया गया था। यह हमें हाई क्वालिटी वाले रिजल्ट को खोजने में मदद करता है जो बहुत आसान है और सर्च इंजन के Top पर दिखाई देते हैं। यह मुख्य रूप से worldwide search request को 1% तक प्रभावित करता है।
दुनिया के लोकप्रिय सर्च इंजन
1. गूगल
गूगल दुनिया के सबसे लोकप्रिय और भरोसेमंद Search Engine में से एक है। इसे 1996 में Sergey Brin और Larry Page ने अपने Research Project के रूप में बनाया था गूगल में Machine Learning, Artificial Intelligence और अन्य Algorithm शामिल है।
अपने यूजर्स को Best Results देने के लिए गूगल रोज सर्च इंजन एल्गोरिदम में सुधार करता है। एक आंकड़े के अनुसार दुनिया भर में 70% से अधिक इंटरनेट यूजर खोज करने के लिए गूगल का उपयोग करते हैं।

2. Bing
Bing search engine Microsoft द्वारा 2009 में पेश किया गया था। यह दुनिया का दूसरा सबसे ज्यादा सर्च किया जाने वाला सर्च इंजन है। यह हमें फोटो, विज्ञापन, वीडियो आदि जैसे विभिन्न टैब में रिजल्ट को फिल्टर करने की अनुमति देता है। बिंग का उपयोग करने का नुकसान यह है कि यह गूगल की तुलना में धीमा परिणाम देता है।

3. DuckDuckGo
DuckDuckGo एक इंटरनेट आधारित सर्च इंजन है जिसकी स्थापना 2008 में हुई थी। यह हमारे पर्सनल डाटा को ट्रैक या स्टोर नहीं करता है। यह उन लोगों के लिए सबसे अच्छा मंच है जो अपनी ब्राउजिंग जानकारी को सुरक्षित और पर्सनल रखना चाहते हैं। लगभग 35 मिलियन यूजर्स इसका उपयोग अपने प्रश्नों को खोजने के लिए करते हैं।

4. YouTube
YouTube की स्थापना 2005 में हुई थी। यह सबसे अच्छा Video Content Delivery Search Engine है। यूट्यूब नई तकनीकों को सीखने का सबसे आसान तरीका प्रदान करता है। वर्तमान में प्रतिमाह 1.5 मिलियन से अधिक यूजर सूचना देखने के लिए यूट्यूब का उपयोग करते हैं। Alexa Traffic Rank के आधार पर यूट्यूब दुनिया में दूसरा सबसे बड़ा सर्च इंजन और तीसरा सबसे ज्यादा देखी जाने वाली वेबसाइट है।

5. Baidu
Baidu 2000 में पेश किया गया पहला सर्च इंजन है यह चीन में प्रमुख सर्च इंजन है। यह एक फ्री वेब ब्राउज़र है जिसका इस्तेमाल Windows और Android दोनों के लिए किया जा सकता है। यह माइक्रोसॉफ्ट Intel और Qualcomm जैसी कंपनियों के साथ सहयोग करता है। यह Cloud Services Social Networking, मैप, वीडियो, इमेज सर्च और बहुत कुछ सेवाएं प्रदान करता है।
6. Yandex
Yandex की शुरुआत दो Russian Developers ने 1990 में की थी। यह एक मुफ्त ब्राउज़र है जो Windows, MacOS, Android और iOS के लिए उपलब्ध है। इसमें मुख्य रूप से Online Advertising, App Analytics Data Management, Smartphone Technology, Artificial Intelligence साथ ही Alice नामक एक Voice Assistant शामिल है।

7. Yahoo
यह सबसे ज्यादा इस्तेमाल किए जाने वाला इंटरनेट सर्च इंजन और सबसे बड़ा वेब पोर्टल है। यह हजारों Websites और लाखों वेब पेजों को देखने के लिए एक Structure प्रदान करता है। याहू ईमेल सेवाएं हमें एक Huge Market को Capture करने में मदद करती है। इसमें Yahoo Answers, Yahoo Groups, Yahoo Search Engine Yahoo Messenger जैसी विभिन्न सेवाएं शामिल है।

8. Ask
Ask को 1996 में Garrett Gruener और David Warthen द्वारा लांच किया गया था। Ask को डिजाइन करने का उद्देश्य इंटरनेट यूजर द्वारा Submit Questions के आधार पर खोज करना है। यह Google, Bing, DuckDuckGo और Yahoo! जैसे सर्च इंजन की ही जैसा है।

9. Naver
Naver को दक्षिण कोरिया का गूगल भी कहा जाता है। यह Naver Corporation द्वारा संचालित सबसे महत्वपूर्ण Chromium Based Search Engine Platform में से एक है। यह 1999 में पेश किया गया था। यह देश में लगभग 75 प्रतिशत खोजों को कवर करता है। एक आंकड़े के अनुसार इस सर्च इंजन के लगभग 42 मिलियन यूजर है।

सर्च इंजन के फायदे
सर्च इंजन के निम्नलिखित फायदे हैं
हमें Manual रूप से जानकारी खोजने की आवश्यकता को समाप्त करता है और Search Operations को बहुत तेज गति से करता है। जिससे हमारा बहुत ज्यादा समय बचता है।
- एक सर्च इंजन का उपयोग करके हम शिक्षा, मनोरंजन, खेल आदि जैसे विभिन्न क्षेत्रों में जानकारी प्राप्त करते हैं। सर्च इंजन से हमें जो जानकारी मिलती है वह Blog, PDF, PPT, Text, Image वीडियो के रूप में होती है।
- ज्यादातर सर्च इंजन जैसे Google, Yahoo, Bing और Yandex यूजर को फ्री में Search करने की अनुमति देते हैं। इसलिए सभी यूज़र अपनी आवश्यकता को पूरा करने के लिए फ्री में सर्च कर पाते हैं।
- सर्च इंजन हमें particular Keyword के आधार पर Relevant Content की खोज करने में अनुमति देते हैं। एक सर्च इंजन Content की Quality के आधार पर अपने Result Page को Sort करता है इसलिए SERP के Top पर सबसे अच्छे रिजल्ट देख सकते हैं।
- सभी सर्च इंजन में Various Variety के Results प्रदान करने की क्षमता होती है।
सर्च इंजन के नुकसान
सर्च इंजन के निम्नलिखित नुकसान है:
- कभी-कभी सर्च इंजन Relevant, Valuable और Informative Content प्रदर्शित करने में बहुत अधिक समय लेता है।
- सर्च इंजन विशेष रूप से गूगल अक्सर अपने एल्गोरिदम कोड अपडेट करते रहते हैं और उस एल्गोरिदम को खोजना बहुत मुश्किल है जिसमें गूगल चलता है।
- सर्च इंजन के कारण हम छोटे-छोटे प्रश्नों को भी हल करने के लिए इसका उपयोग करते हैं।
आशा है Search Engine की जानकारी आपको पसंद आयी होगी।
सर्च इंजन से संबंधित किसी भी प्रश्न के लिए कमेंट करे।