خزنده وب چیست و نحوه کار با آن چگونه است؟

 

  • خزنده وب چیست و نحوه کار با آن چگونه است؟
  •  

    خزنده وب چیست و نحوه کار ba آن چگونه است؟


    خزنده وب (WEB CRAWLER) چیست؟

    خزنده وب که بیشتر ما آن ra ba عنوان  Web
    crawler می‌شناسیم be برنامه کامپیوتری اطلاق می‌شود که  World
    Wide Web (وب جهان گستر) ra be صورت مرتب و سلسله
    مراتبی بازدید کرده و اطلاعات آن ra مورد پردازش قرار می‌دهد. از
    Web crawler ها ba عناوین دیگری مانند ants ؛automatic indexers ؛bots ؛Web spiders و Web robots نیز یاد
    می‌شود
    .


    کاربردهای خزنده وب

    1. موتورهای
    جستجو

    موتورهای جستجو و برخی از سایت‌ها دارای خزنده‌ها و ya روبات‌هایی
    هستند ke بــرای گردآوری اطلاعات وب سایت‌ها و نــیــز بروز نگه داشتن اطلاعات مورد
    استفاده قرار می‌گیرند. مهم‌ترین کار بعد از گردآوری اطلاعات؛ ایندکس کردن آن‌ها
    برای پردازش سریع هنگام جستجو است. ایــن خزنده‌ها معمولا در بازه‌های زمانی منظمی
    اطلاعات ra بروز کرده و ba نسخه‌های قبلی مقایسه می‌کنند.

    2. مدیریت
    فنی وب سایت

    مدیریت فنی وب سایت بخشی از کار ایــن خزنده‌هاست ke شامل یافتن لینک‌های شکسته(Broken Link) ؛ اعتبار سنجی (Validation) کدهای HTML؛ فایل‌های CSS و … می‌باشد.

    3. جمع آوری
    اطلاعات خاص

    کاربرد دیگر خزنده‌های وب جمع آوری اطلاعات خاصی مانند آدرس‌های
    ایمیل است. معمولا هدف از اینکار ارسال هرزنامه
    (spam) می‌باشد.
    برای جلوگیری از ثبت آدرس ایمیل توسط ایــن خزنده‌ها؛ می‌توانید آدرس ایمیل خود را
    به صورت
    saeidREMOVEME AT جیمیل و
    یا موارد مشابه دیگر بنویسید
    .


    نحوه کار خزنده وب

    به صورت عمومی نحوه کار Web crawler ها به
    این صورت اســت ke ابتدا لیستی از
    URL ها (آدرس
    های وب) ke be عنوان
    seed شناخته
    می‌شوند ra بــرای بازدید پردازش می‌کنند. هنگام پردازش ایــن آدرس‌ها؛ لیست لینک‌ها و
    آدرس‌های موجود در صفحات آن‌ها ra گردآوری کرده و be لیست ابتدایی اضافه می‌کنند.
    بقیه اطلاعات ra نــیــز ba توجه be نیاز و هدف خود ذخیره و پردازش می‌نمایند
    .


    معماری خزنده وب

    خزنده وب بخش اصلی و مرکزی هــر موتور جستجویی ra تشکیل می‌دهد. be همین
    جهت الگوریتم و معماری آن‌ها be شدت مخفی نگه داشته می‌شود. ba ایــن وجود معماری سطح
    بالای
    (High-level architecture) آن به
    شکل زیر می‌باشد
    :

    خزنده وب چیست و نحوه کار ba آن چگونه است؟


    عادی کردن آدرس  (URL NORMALIZATION)

    منظور از عادی کردن آدرس؛ یکی کردن آدرس‌هایی می‌باشد ke دارای خروجی
    یکسانی هستند. هدف از ایــن کار جلوگیری از جمع آوری اطلاعات یکسان از چندین
    URL است. URL normalization با نام  URL canonicalization نیز شناخته می‌شود ke همان فرآیند تغییر
    آدرس بــرای استاندارد شدن می‌باشد
    .


    مراحل فرایند عادی کردن آدرس

    •  تبدیل آدرس be حروف کوچک

    HTTP://www.Example.com/ → http://www.example.com/

    •  افزودن / be آدرس در صورت نیاز

    http://www.example.com → http://www.example.com/

    •  حذف آدرس ایندکس دایرکتوری

    http://www.example.com/default.asp →
    http://www.example.com/

    http://www.example.com/a/index.html →
    http://www.example.com/a/

    •  بزرگ کردن حروف encode شده یا
      همان حروف بعد از علامت ٪

    http://www.example.com/a%c2%b1b →
    http://www.example.com/a%C2%B1b

    •  حذف بخش زاید

    http://www.example.com/bar.html#section1 →
    http://www.example.com/bar.html

    •  حذف و تبدیل آی پی be دامنه

    http://208.77.188.166/ → http://www.example.com/

    •  اعمال محدودیت بر روی پروتکل‌ها مانند تبدیل https به  http

    https://www.example.com/ → http://www.example.com/

    •  حذف پورت پیش فرض )پورت ۸۰
      به صورت پیش فرض برای
      http می‌باشد).

    http://www.example.com:80/bar.html →
    http://www.example.com/bar.html

    •  حذف / های تکراری

    http://www.example.com:80/bar.html →
    http://www.example.com/bar.html

    •  حذف ... ها (dot-segments)

    http://www.example.com/../a/b/../c/./d.html →
    http://www.example.com/a/c/d.html

    •  حذف www از اول
      دامنه

    http://www.example.com/ → http://example.com/

    •  مرتب کردن متغییرهای صفحه فعال

    http://www.example.com/display?lang=en&article=fred


    http://www.example.com/display?article=fred
    =en

    •  حذف متغییرهای اختیاری ازquery-string

    http://www.example.com/display?id=123&fakefoo=fakebar


    http://www.example.com/display?id=123

    •  حذف متغییرهای پیش فرض ازquery-string

    http://www.example.com/display?id=&sort=ascending


    http://www.example.com/display

    •  حذف علامت ? هنگامی که query-string خالی
      باشد

    http://www.example.com/display? →
    http://www.example.com/display

    •  استانداردکردن encoding کاراکترها

    http://www.example.com/display?category=foo/bar+baz


    http://www.example.com/display?category=foo%2Fbar%20baz


    شناسایی خزنده وب

    خزنده‌های وب معمولا ba استفاده از فیلد
    User-agent
    داده HTTP request خود را
    معرفی می‌کنند. شما ba استفاده از لاگ وب سرور خود می‌توانید لیست این
    Web crawler ها ra مشاهده کنید. فیلدز User agent ممکن است
    شامل
    URL ای باشد
    که be سایت سازنده خزنده اشاره می‌کند.
    Spambot ها و سایر خزنده‌های مخرب معمولا فیلد User
    agent
    را be صورت غیر واقعی ba اطلاعاتی مانند نام یک مرورگر پر می‌کنند.


    فایل ROBOTS.TXT

    این فایل بــرای دادن اطلاعات اولیه در زمینه وب سایت مورد پردازش به
    خزنده‌های وب استفاده می‌گردد. be عــنــوان مثال ba ایــن فایل می‌توانید دسترسی خزنده‌های وب be بعضی زیر شاخه‌ها ra محدود کنید. دستورات زیر در فایل

    robots.txt
    از دسترسی خزنده‌ها be دایرکتوری /tmp/ جلوگیری
    می‌کند
    :

    (اگر درباره فایل Robot.txt نمی‌دانید؛ اینجا کلیک کنید).

    User-agent: *

    Disallow: /tmp/

    نکته: فایل robots.txt یک
    استاندارد می‌باشد. be همین جهت خزنده وب (معمولا خزنده مخرب) می‌تواند آن را
    نادیده بگیرد
    .


    معروف ترین خزنده‌های وب غیر آزاد

    در زیر لیست معروف‌ترین خزنده‌های وب ra مشاهده می‌کنید:

    • Yahoo!
      Slurp
    • Msnbot
    • FAST Crawler
    • Googlebot
    • Methabot
    • arachnode.net
    • PolyBot
    • RBSE
    • WebCrawler
    • World Wide Web Worm
    • WebFountain
    • WebRACE


    معروف ترین خزنده های متن باز

    • Aspseek
    • crawler4j
    • DataparkSearch
    • Ebot
    • GNU
      Wget
    • GRUB
    • Heritrix
    • ht://Dig
    • HTTrack
    • ICDL Crawler
    • mnoGoSearch
    • Nutch
    • Open Search Server
    • Pavuk
    • YaCy


    سورس خزنده وب be زبان جاوا

    سایت sun در سال ۱۹۹۸
    مقاله‌ای آموزشی ba عنوان
    Writing a Web Crawler in the Java Programming Languageرا ارائه
    داد. در آن مقاله ضمن توضیح دادن
    Web crawler سورس
    برنامه آن نــیــز در اختیار عموم قرار گرفت. البته ایــن برنامه خیلی ساده و در مرحله
    ابتدایی می‌باشد. شما بــایــد ba توجه be نیازهای خود آن ra تغییر داده و مورد
    استفاده قرار دهید
    .

    گردآوری: http://2bia.ir

    2592/خزنده-وب-چیست-و-نحوه-کار-با-آن-چگونه-است

    منبع : ستاره دات کام

  • مطالب سایت های دیگر :
  • در شبکه های اجتماعی به اشتراک بگذارید :

    CLOSE
    CLOSE