آموزش از سامسونگ در مورد چگونگی خراشیدن مشهورترین وب سایت ها از ویکی پدیا

وب سایت های پویا از فایل های robots.txt برای تنظیم و کنترل هرگونه فعالیت scraping استفاده می کنند. این سایت ها با ضوابط و خط مشی های ضبط وب محافظت می شوند تا از وبلاگ نویسان و بازاریابان سایتهایشان جلوگیری نشوند. برای مبتدیان ، scraping وب روشی است برای جمع آوری داده ها از وب سایت ها و صفحات وب و ذخیره آن و ذخیره آن در قالب های قابل خواندن.

بازیابی داده های مفید از وب سایت های پویا می تواند یک کار دشوار باشد. برای ساده کردن روند استخراج داده ها ، وب مسترها از روبات ها استفاده می کنند تا هرچه سریع تر اطلاعات لازم را بدست آورند. سایت های پویا از دستورالعمل های "اجازه" و "مجاز" نیستند که به روبات ها می گویند که قراضه مجاز است و کجا نیست.

scrap معروف ترین سایت ها از ویکی پدیا

این آموزش شامل یک مطالعه موردی است که توسط Brendan Beyey در سایت های قراضه از اینترنت انجام شده است. Brendan با جمع آوری لیستی از قوی ترین سایت های ویکی پدیا شروع به کار کرد. هدف اصلی Brendan شناسایی وب سایت های آزاد برای استخراج داده های وب بر اساس قوانین robot.txt بود. اگر می خواهید سایتی را ویرایش کنید ، برای جلوگیری از نقض کپی رایت ، به شرایط خدمات وب سایت مراجعه کنید.

قوانین scraping سایت های پویا

با ابزارهای استخراج داده های وب ، scraping سایت فقط موضوع کلیک است. تجزیه و تحلیل دقیق در مورد نحوه طبقه بندی Brendan Bailey سایت های ویکی پدیا ، و معیارهای مورد استفاده در زیر شرح داده شده است:

مخلوط

طبق مطالعه موردی Brendan ، اکثر وب سایت های معروف را می توان به عنوان Mixed دسته بندی کرد. در نمودار پای ، وب سایتهای دارای ترکیبی از قوانین ، 69٪ را نشان می دهند. robots.txt گوگل نمونه ای عالی از robots.txt مختلط است.

اجازه کامل

از طرف دیگر ، Complete Allow ، 8٪ را نشان می دهد. در این زمینه ، Complete Allow به این معنی است که فایل robots.txt سایت به برنامه های خودکار دسترسی دارد تا کل سایت را خراش دهند. SoundCloud بهترین نمونه برای گرفتن است. نمونه های دیگر سایتهای Complete Allow عبارتند از:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

تنظیم نشده

وب سایتهای دارای "تنظیم نشده" 11٪ از کل ارائه شده در نمودار را به خود اختصاص داده اند. Not Set به معنای دو مورد زیر است: یا سایت ها فاقد پرونده robots.txt هستند ، یا سایت ها فاقد قوانینی برای "کاربر عامل" هستند. نمونه هایی از وب سایت هایی که پرونده robots.txt "تنظیم نشده است" شامل موارد زیر است:

  • Live.com
  • Jd.com
  • Cnzz.com

غیرفعال کردن کامل

سایت های Disallow Complete برنامه های خودکار را از scrap کردن سایت های خود منع می کنند. Linked In یک نمونه عالی از سایتهای Disallow کامل است. نمونه های دیگر سایتهای Disallow Complete عبارتند از:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

ضبط وب بهترین راه حل برای استخراج داده است. با این حال ، ضبط برخی از وب سایت های پویا می تواند شما را دچار دردسر بزرگی کند. این آموزش به شما کمک می کند تا اطلاعات بیشتری در مورد فایل robots.txt کسب کنید و از بروز مشکلاتی که در آینده روی می دهد جلوگیری کنید.

mass gmail