ایجاد کلاستر شبه توزیعی Spark+Hadoop در ویندوز+ماشین مجازی

          سعید 
            بازدید : 35
          جمعه 02 اسفند 1398
           نظرات (0)
        

ایجاد کلاستر شبه توزیعی Spark+Hadoop در ویندوز+ماشین مجازی

فرمت فایل دانلودی: .rar
فرمت فایل اصلی: doc
تعداد صفحات: 92
حجم فایل: 5344 کیلوبایت
قیمت: 16000 تومان

توضیحات:
آموزش کامل ایجاد کلاستر شبه توزیعی Spark+ Hadoop در ویندوز در قالب فایل word و در 92 صفحه، بهمراه ماشین مجازی آماده.

این فایل شامل آموزش نصب ساده و مدیریت کلاستر شبه توزیعی Hadoop /Apache Spark روی سرور مجازی CentOS در ویندوز بهمراه لینک دانلود ماشین مجازی آماده استفاده می باشد.

در مواردی که بکارگیری ابزارهای مدیریت Big Data با اهداف یادگیری، تست، آموزش و توسعه در یک چارچوپ پردازش خوشه ای مثل Hadoop یا Apache Spark مد نظر باشد، معمولا" دو روش برای راه اندازی کلاستر آزمایشی پیشنهاد میشود :
روش اول ، استفاده از بسته های آماده کلاستر مجازی که توسط شرکت هایی مثل کلودرا و هورتون ورکز ارائه شده .این روش علیرغم مزایایی همچون راه اندازی سرویسهای گوناگون و عدم نیاز به پیکربندی از طرف کاربر، دارای محدودیتهای زیادی هم هست. از جمله اینکه تقریبا" همه این شرکتها دسترسی کاربران ایرانی به محصولاتشان را تحریم کرده اند، چندین گیگا بایت حجم دارند و برای راه اندازی نیاز به کامپیوتری با حافظه رم نسبتا" بالا دارند. (حداقل 8 –توصیه شده 16 گیگا بایت) دارند.
روش دوم که ما در این آموزش از آن استفاده کرده ایم راه اندازی دستی (Manual) کلاستر روی یک ماشین واحد ، و با معماری شبه توزیعی است. در این روش، تمام مراحل پیکربندی را خودمان انجام میدهیم و خصوصیات و اجزای کلاستری که ایجاد میکنیم را با توجه به موضوع در دست پژوهش و امکانات سخت افزاری که در اختیار داریم میتوانیم تعیین کنیم.

محصول حاضر ، با توجه به نوپا بودن مفاهیم Big data و کمبود منابع کاربردی و محدودیت هایی که در پژوهشهای حوزه Big Data برای دانش پژوهان، خصوصا " در دسترسی و بکارگیری ابزارها وجود دارد، تهیه گردیده و اهداف اصلی زیر را دنبال میکند:
الف) علاقمندان به فعالیت در زمینه Big Data ، شخصا" مهارت ایجادکلاستری را که برای اهداف تجقیقاتی نیاز دارند، بصورت اصولی در کوتاه ترین زمان ممکن فرا گیرند.

ب) ارائه ماشین مجازی آماده کلاستر نیمه نوزیعی Hadoop/Spark برای کاهش محدودیتها در دسترسی به ابزارهای حوزه Big Data

الف) رویکردی که در این آموزش به آن توجه خاص شده، این است که هر فرد علاقمند به کار با ابزارهای Big Data ، بتواند با در دسترس ترین امکانات سخت افزاری و نرم افزاری مثل یک لپ تاپ یا PC معمولی ویندوز ، با صرف حداقل هزینه و در کوتاه ترین زمان ممکن ، مهارت ایجاد و کار با کلاستری را که برای اهداف تست و یادگیری نیاز دارد را شخصا" فرا گیرد. در یک دوره تحقیقی چند ماهه ،برای رسیدن به راهکاری کارامد، قابل اطمینان ، مطابقت بالا با محیط واقعی و در عین ساده انواع روشها ، بسترها و نرم افزارهای مختلف مجازیسازی مثل Virtualbox ، Hyper-V ، Docker ، Vmware و انواع توزیعهای دسکتاپ و سرور لینوکس بر پایه Ubuntu، RHEL، Debian، Pacman و RPM و توزیعهای مختلف هدوپ و اسپارک ، را برای انتخاب مناسبترین گزینه بررسی و تست کردیم.بنابراین بکارکارگیری هر کدام از ابزارها ، نرم افزارها، و نسخه های بکارگرفته شده در این آموزش بر دلایل منطقی و تجربی قابل دفاعی استوار است،که پرداختن به آنها خارج از حوصله این مقاله میباشد.

روش کلی کار در این آموزش این است که با نرم افزار مجازیسازی Vmware workstation در محیط ویندوز یک سرور مجازی لینوکس CentOs minimal ایجاد میکنیم، و کلاستر مجازی هدوپ را با معماری شبه توزیعی(Pseudo Distributed Mode) در بستر این سرور مجازی بصورت قدم بقدم راه اندازی میکنیم. در گام بعدی، به پیکربندی چارچوب پردازشی Apache Spark روی این کلاستر میپردازیم. بعد از راه اندازی کلاستر هدوپ/اسپارک با استفاده از چندین مثال و سناریوی عملی نحوه کار و مدیریت کلاستر پردازشی هدوپ/اسپارک ، از محیط ویندوز را با تمام جزئیات بهمراه بیش از 100 تصویر از تک تک مراحل کار پیش میبریم. همانطور که میدانید چارچوب Hadoop از دولایه اصلی فایل سیستم توزیع شده Hdfs و مدیر خوشه Yarn تشکیل شده و پارادایم پردازشی آن بر مبنای مدل Map-reduce پایه میباشد. مدل پایه’ Map-reduce ضمن اینکه مدتها بعنوان مدل اصلی در پلتفرم های Big Data مورد استفاده قرار گرفته، لیکن بدلیل هزینه زمانی و کندی در پردازش job های تکراری ،خصوصا" در پردازشهای نزدیک به زمان واقعی (real-time) همواره مورد انتقاده بوده. بطوریکه ظهور مدل پردازش بسته ای مقیم در حافظه اصلی (in-memory Batch processing) و توسعه موتورهای پردازشی سریعتر مثل Apache Spark ، اخیرا" توسعه دهندگان هدوپ را ناچار کرد که بفکر حذف لایه پردازش و مدیریت کلاستر Yarn از لایه’ فایل سیستم HDFS در نسخه جدید هدوپ بیفتند و بدین ترتیب عملا" مدل Map-reduce پایه بعنوان مدل پردازشی پیش کسوت چارچوبهای پردازشی Big Data با سابقه ای درخشان بازنشسته شد. انگیزه’ اصلی از شکل گیری چارچوب پردازشی Apache Spark بعنوان یکی از زیر پروژه های هدوپ جبران نقایص مدل پایه نگاشت-کاهش است. هسته اسپارک صرفا" یک موتور پردازشی است و فاقد هرگونه امکان ذخیره سازی است. ولی اسپارک این کمبود را با انعطاف پذیری بالایی که در یکپارچه شدن و تغذیه از سایر فایل سیستمها و پایگاههای داده های رابطه ای و NOsql خارجی، بنحو موثری جبران میکند. یکی از مزایای معماری تلفیقی استفاده شده در این آموزش این است که درحین کار با سناریوها و مثالها، سرعت پردازش مدل پایه Map-reduce ،را در مقایسه با زمانیکه موتور پردازشی اسپارک در تعامل با لایه hdfs هدوپ کار میکند ، عملا" لمس خواهیم کرد.

پیشنیازهای سخت افزای و نرم افزاری برای پیکربندی کلاستر شبه توزیعی Hadoop/spark :
1. لپ تاپ یا PC با سیستم عامل ویندوز 7+ ، ترجیحا" 64 بیتی (اگر از سیستم عامل 32 بیتی استفاده میکنید باید پیشنیازها را متناسب با سیستمهای 32 بیتی تهیه فرمایید.)
2. اتصال به اینترنت و امکان دانلود بسته های اینترنتی(تا حجم 1GB)
3. حداقل GB4 حافظه رم داخلی و GB 10+ فضای خالی هارد

ب) بدلایل زیادی ، برای اکثر ما کاربران ایرانی ، یک سیستم کامپیوتری مفهومی معادل یک PC با سیستم عامل ویندوز را در ذهن تداعی میکند. هر چند سعی شده هیچ نکته ای در آموزش از قلم نیفتد، اما چون ممکن است در آغاز، کار با دستورات محیط لینوکس برای پیکر بندی یک کلاستر پردازشی، با آزمون وخطا همراه بوده یا زمانبر باشد، لذا برای دسترسی همگانی بهمراه این آموزش، اقدام به ارائه ماشین مجازی آماده نیمه توزیعی هدوپ/ اسپارک ، با پیکربندی کامل نموده ایم و فایل فشرده آنرا در کتابخانه دیجیتالی شخصی آپلود و لینک دانلود آنرا (باحجم 1 گیگابایت) در متن مقاله به اشتراک گذاشته ایم . نرم افزارهای مورد نیاز را قبلا" دانلود و نصب کرده ایم. این ماشین مجازی احتیاج به هیچگونه تنظیمات و پیکربندی نداشته، در یک PC ویندوز 64 بیتی با امکانات معمولی و با نصب نرم افزار مجازیسازی Vmware ، و یک نرم افزار شبیه ساز ترمینال لینوکس مثل Cygwin یا رابط putty آماده استفاده میباشد. ضمنا" دیتا ستهای بکار گرفته شده در این آموزش برای استفاده در فایل سیستم ماشین مجازی آماده موجود است.شما میتواید هر زمان که نیاز داشتید ، بدون نگرانی از ایجاد تغییر در نسخه اصلی ، یک نمونه از ماشین مجازی را اکسترکت کرده، و با آن کار کنید.

لطفا" برای مشاهده ویدئوی راه اندازی ماشین مجازی آماده کلاستر شبه توزیعی spark/ hdp اینجا کلیک فرمایید.

فهرست مطالب:
مقدمه
فصل اول: نصب SSH و Cygwin
ایجاد ماشین مجازی لینوکس CentOs 6.5 minimal با VMware workstation در ویندوز
تنظیم ویژگیهای ماشین مجازی
استخراج مشخصات اینترفیسهای ماشین مجازی
برقراری اتصال ssh از محیط ویندوز به ماشین لینوکس با ترمینال شبیه ساز Cygwin
ویرایشگر متنی vi در لینوکس CentOS
تعیین آدرس Gatway شبکه در ماشین مجازی CentOS
تعیین HOSTNAME با قالب FQDN برای VM
اختصاص نام مستعار برای IP آدرس CentOS VM در ویندوز
تنظیمات دسترسی به اینترنت در ماشین مجازی Centos
دانلود و نصب نرم افزارهای پیشنیاز از اینترنت در CentOS VM
پیکربندی جاوا jdk-8
پیکربندی اینترفیس Ethernet ماشین مجازی CentOS
تست اتصال ssh ماشین محلی ویندوز و ماشین مجازی لینوکس
تاثیرات فایروال و فیلترینگ جداول IP در اتصالات شبکه
غیر فعال کردن فیلترینگ جداول IP در ماشین مجازی لینوکس
تست فایروال و فیلترینگ جداول IP
تنظیم passwordless login بین ماشین محلی ویندوز و CentOS VM
تنظیم passwordless login داخلی ماشین مجازی CentOS
انتقال فایل از ماشین محلی ویندوز به CentOS VM
بررسی حالتهای راه اندازی کلاستر Hadoop
معماری کلاستر Hadoop در حالت Pseudo Distributed Mode (شبه توزیع شده)
نحوه دانلود بسته باینریهای Hadoop در ویندوز و انتقال آن به VM
نحوه دانلود بسته باینری Hadoop بطور مستقیم از محیط VM با ابزار wget
تنظیم متغیر محلی جاوا و hadoop در فایل profile ماشین مجازی
ویرایش فایلهای پیکربنده بندی hadoop برای حالت Pseudo Distributed Mode
راه اندازی demon های dfs و yarn
دسترسی به رابط تحت وب hdfs از مرورگر وب در ویندوز
دسترسی به Yarn web UI
کار با دستورات اصلی مدیریت hdfs در کلاستر hadoop
ایجاد دایرکتوری کاربر در فایل سیستم hdfs
مانیتورینگ و اشکال یابی فرایندها در کلاستر hadoop با Log فایلها
تست عملکرد کلاستر شبه توزیعی هدوپ با مثال Wordcount Map-reduce
نحوه اجرای مثال Wordcount Map-reduce
دسترسی به فایل خروجی برنامه wordcount از طریق hdfs web UI
خواندن فایل خروجی برنامه از hdfs در ترمینال
توقف کلاستر هدوپ
راه اندازی چارچوب Apache Spark در کلاستر شبه توزیعی hadoop در حالت Local
مفاهیم پایه ای در چارچوب پردازشی آپاچی اسپارک
مزایای موتور پردازشی آپاچی اسپارک نسبت به محیطهای پردازشی مشابه
پوسته اسپارک (Spark-Shell)
ساختار داده ای دیتاستهای توزیعی- منعطف (RDD) در اسپارک
مثال عملی spark- برنامه word Count در محیط پردازشی Apache Spark
ارسال دیتاست نمونه از ویندوز به VM
ایجاد دایرکتوری برای ذخیره دیتاست نمونه در hdfs
ارسال دیتاست از فایل سیستم VM به hdfs
ایجاد RDD با خواندن فایل ورودی از hdfs با Spark-Scala API
اعمال transformation برای شناسایی کلمات در متن
اعمال transformation برای تعیین جفتهای کلید- مقدار
اعمال transformation برای کاهش کلیدهای مشابه
تثبیت RDD خروجی در حافظه اصلی
چاپ خروجی برنامه Wordcount Spark در ترمینال
مثال عملی spark : برنامه تطابق الگو در اسناد متنی (Pattern matching) با Scala
استخراج تعداد بازدید کنندگان از وبسایت بر اساس زمان بازدید با Log file
مثال عملی spark- نمونه برنامه متن کاوی با Scala
مهاجرت دایرکتوری hadoop به خارج از دایرکتوری کاربر root
pyspark (رابط برنامه نویسی با زبان pyton در محیط آپاچه اسپارک)
مثال عملی spark : ایجاد برنامه wordcount با pyspark به زبان python
دانلود و کار با بسته ماشین مجازی آماده نیمه توزیعی hdp/spark
مثال عملی Spark Wordcount با بسته ماشین مجازی آماده نیمه توزیعی hdp/spark
لینک دانلود بسته ماشین مجازی آماده نیمه توزیعی hdp/spark

پرداخت با کلیه کارتهای عضو شتاب امکان پذیر است.

پیاده سازی فیلترینگ هرزنامه با کتابخانه یادگیری ماشین آپاچی اسپارک با زبان Scala

          سعید 
            بازدید : 27
          چهارشنبه 30 بهمن 1398
           نظرات (0)
        

پیاده سازی فیلترینگ هرزنامه با کتابخانه یادگیری ماشین آپاچی اسپارک با زبان Scala

فرمت فایل دانلودی: .rar
فرمت فایل اصلی: doc
تعداد صفحات: 71
حجم فایل: 3352 کیلوبایت
قیمت: 23000 تومان

توضیحات:
تحقیق پیاده سازی فیلترینگ هرزنامه با کتابخانه یادگیری ماشین آپاچی اسپارک با زبان Scala، در قالب فایل Word و در 71 صفحه، همراه با دیتاست نمونه و اسکریپت های پیاده سازی.

هدف این پروژه ایجاد ماشین اسپم فیلترینگ در کلاستر مجازی Apache Spark با مدل رگرسیون لجستیک و بیزی در ویندوز است.

شکل گیری بسترها و مدلهای نوظهور مدیریت داده های عظیم .افق تازه ای را در پژوهشها ی حوزه های مرتبط با علوم داده به همراه آورده است . در این میان بکارگیری روشها و الگوریتمهای یادگیری ماشینی در چارچوبهای پردازشی Big Data جزو داغترین حوزه های مطالعاتی است که چه در سطح آکادمیک و چه در سطح تجاری توجه و تمرکز زیادی را بخود معطوف کرده است در تهیه این پژوهش تلاش کرده ایم با در نظر گرفتن کمبود منابع کاربردی و محدودیت هایی که در پژوهشهای حوزه Big Data برای دانش پژوهان، در بکارگیری ابزارها و تبدیل دانش تئوری به یک پروژه هدفمند و کاربردی وجود دارد، تجربیات علمی و عملی خود را در قالب پیاده سازی گام بگام و تصویری سناریوی ایجاد یک کلاستر محلی و بکارگیری کتابخانه یادگیری ماشین در یکی از موفقترین پروژه های پردازش خوشه ای ( آپاچی اسپارک) را با هدف ایجاد برنامه فیلترینگ ایمیلهای ناخواسته با دو الگوریتم رگرسیون لجستیک و نایو بیز با زبان اسکالا ، شامل میشود را ارائه نماییم. ابزارها و روشها طوری انتخاب شده که با حد اقل امکانات سخت افزاری و نرم افزاری قابل اجرا باشد، نرم افزارها در دسترس عموم و رایگان باشد، علی رغم استفاده از تکنیکهای مجازیسازی با محیط واقعی مطابقت داشته باشد، کاربردی و قابل توسعه باشد.
سیستمی که در پیاده سازی این سناریو استفاده کرده ایم یک لپ تاپ با سیستم عامل ویندوز 8.1 - 64 بیتی با 4 گیگا بایت حافظه رم داخلی است. ScreenShot های با کیفیت بالا از کلیه مراحل پیاده سازی را برای کمک به درک بهتر در متن مقاله استفاده کرده ایم. همچنین، اسکریپت ها ، دیتاست های نمونه، لینک دانلود مستقیم فایل ها و نرم افزارهای مورد نیاز برای انجام پیاده سازی را پیوست کرده ایم.

برای ایجاد کلاستر محلی اسپارک دو راه معمول وجود دارد:
روش اول استفاده از بسته های مجازی آماده و از پیش پیکربندی شده پلتفرم هادوپ، که توسط شرکتهایی مثل Cloudera و Horthonworks ارائه شده.
روش دوم نصب و راه اندازی عادی (دستی) کلاستر اسپارک میباشد. بسته های آماده، ضمن اینکه ابزارهای کاملی هستند و نیاز به پیکربندی اولیه توسط کاربر ندارند، محدودیتهایی هم دارند. مثلا" حجم بالایی دارند. (حجم آخرین نسخه Sandbox Horthonworrks حدود 11 GB و Cloudera quickstart VM ، حدود 5 GB است). از طرفی چون این بسته ها، سرویسهای مختلفی را بطور همزمان فعال میکنند(که معمولا" به همه آنها نیازی نداریم) در مقایسه با راه اندازی دستی احتیاج به حافظه رم بیشتری میباشد (حداقل 8 GB). از آنجا که امکانات سخت افزاری اکثر دانش پژوهان و دانشجویان ممکن است یک لپ تاپ یا PC معمولی باشد، ما روش دوم را انتخاب کرده ایم و یک بخش جداگانه (فصل سوم) از پژوهش را به آموزش نصب کلاستر (محلی- مستقل) اسپارک بصورت دستی درمحیط ویندوز و بر روی سرور مجازی CentOs-minimal اختصاص داده ایم. منظور از محلی(Local) و مستقل (Standalone) این است که در این حالت:
1- اجزای اجرایی اسپارک (driver, executor , master, LocalScheduler) روی یک ماشین مجازی جاوای واحد (Single-JVM) ایجاد و راه اندازی میشود،
2- از زمانبند داخلی اسپارک برای زمانبندی وظایف (tasks) استفاده میشود
3- از فایل سیستم خارجی(مثل HDFS هادوپ) برای خواندن یا ذخیره داده ها استفاده نمیشود، بلکه دسترسی به داده ها از طریق آدرسدهی به فایل سیستم ماشین محلی که اسپارک روی آن سوار شده (در این پژوهش ماشین مجازی CenOs) میسر میشود. در این روش علاوه بر اینکه به حافظه رم بسیار کمتری نیاز است، در اهداف تست،آموزش و توسعه برنامه های اسپارک روشی بهینه و کم هزینه است. بعلاوه، در حین پیکربندی عملی کلاستر اسپارک، با مهارتهای کلیدی و سودمندی مثل نصب و پیکربندی اولیه سرور لینوکس ، دستورات پایه’ مدیریتی لینوکس، نصب آفلاین بسته توسعه جاوا JDK))، کانفیگ متغیرهای محلی اسپارک ، انتقال فایل بین ماشین محلی ویندوز و مجازی لینوکس، برقراری کانکشن ssh و مدیریت کلاستر مجازی اسپارک از محیط ویندوز وبسیاری نکات تخصصی و تجربیات مفید دیگر هم آشنا خواهید شد. ضمنا" چون این روش را بارها تست و راه اندازی کرده ایم در مورد صحت و نتیجه کار هیچ نگرانی وجود نخواهد داشت.

پیش نیازهای سخت افزاری و نرم افزاری:
1. لپ تاپ یا PC با سیستم عامل ویندوز 7+ ، 64 بیتی
2. اتصال اینترنت، امکان دانلود بسته های اینترنتی
3. حداقل GB4 حافظه رم داخلی و GB 4+ فضای خالی هارد در یکی از درایوهای ویندوز
4. نصب نرم افزار virtualbox Oracle VM، نسخه ویندوز
5. فایل ایمیج سیستم عامل لینوکس CentOs-minimal ورژن 6.5 - 64 بیتی (398 مگابایت)
6. فایل فشرده باینری آپاچه اسپارک (spark-1.6.1-bin-hadoop2.6.tgz) (290 مگابایت)
7. فایل فشرده جاوا (JDK) نسخه لینوکس ورژن 8 (170 مگابایت)
8. ftp کلاینت تحت ویندوز (8 مگابایت)
( حجم کل نرم افزارها و فایلها : کمتر از 1 گیگابایت)

بخشی از مقدمه:
اگر شما هم از کاربران سرویسهای پست الکترونیکی (Email) باشید، حتما" با ایمیلهایی که بصورت خودکار در پوشه Spam یا junk حساب ایمیل شما قرار میگیرند برخورد کرده اید. با توجه به اینکه روزانه میلیونها ایمیل در سراسر دنیا مبادله میشود، سرویس دهندگان خدمات پست الکترونیکی از میان این حجم عظیم داده که باید در کمترین زمان ممکن مبادله شوند، از چه روشی برای تشخیص و فیلتر کردن هرز نامه های الکترونیکی استفاده میکنند؟
اپلیکیشن های اسپم فیلترینگ بر مبنای عبور متن ایملها از صافیهای متن (Text Filters) کار میکنند.فیلترهای متن این تشخیص را با استفاده از الگوریتمهای یادگیری ماشین انجام میدهند، به این ترتیب که کلمات و عبارتی که بیشتر در ایمیلهای اسپم استفاده میشوند را شناسایی میکنند.
سئوال دیگری که پیش می آید این است که با توجه به اینکه حجم ایمیلها بصورت سریع و تصاعدی در حال رشد است ، چگونه میتوان از ابزارها و سکوهای پردازشی نوین حوزه کلان داده (big data) در جهت بهبود عملکرد(دقت،سرعت،هزینه) چنین برنامه هایی سود جست؟
در این پژوهش، به مراحل کامل پیاده سازی یک کلاستر محلی آپاچی اسپارک در محیط مجازی و ساخت دو مدل اسپم فیلترینگ با کتابخانه یادگیری ماشین آپاچی اسپارک(Spark MLlib) با زبان برنامه نویسی Scala ، بر مبنای الگوریتمهای رده بندی رگرسیون لجستیک و بیزی ساده (Naive Bayes) خواهیم پرداخت.

فهرست مطالب:
مقدمه
فصل اول: پردازش خوشه ای ، زبان Scala ، محیط آپاچی اسپارک
رایانش توزیع‌شده (Distributed computing)
پردازش موازی
Parallel programming mode – موازی سازی وظیفه و داده
پدیده ای بنام Big Data
زبان برنامه نویسی Scala در محیط آپاچی اسپارک
ساختمان پشته Apache Spark
بررسی نقاط ضعف مدل برنامه نویسی پایه Map-Reduce
راهکارهای آپاچی اسپارک برای بهبود محدودیت های مدل Map-reduce
بررسی اجزای اجرایی در کلاستر آپاچی اسپارک (Cluster manager - Executer - Driver)
پوسته اسپارک : دیتاستهای توزیعی-ارتجاعی، مبدلها ، فعالیتها (RDD-Transformation-Action)
اپلیکیشن های یادگیری ماشین با Apache Spark
الگوریتمهای مورد پشتیبانی با کتابخانه MLIib Spark
نقاط قوت Spark در مقایسه با چارچوبهای مشابه پردازش داده های بزرگ موجود
فصل دوم: ساخت مدل برای فیلتر ایمیلهای هرز با کتابخانه Mllib Spark
مفهوم فیلترینگ هرزنامه - Spam Filtering
ایجاد اسپم فیلترینگ با الگوریتم رگرسیون لجستیک با کتابخانه Mllib Spark
درونریزی کلاسها و زیر کلاسهای مورد نیاز به فضای کاری اسپارک
مدل یادگیری رگرسیون لجستیک با بهینه ساز SGD
درهم ریزی ویژگیها به روش توالی عبارات (Hashing Term Frequency)
یادگیری با ناظر و برچسب گذاری برداری با MLlib اسپارک (LabeledPoint in Spark supervised learning)
معرفی دیتاست های مورد استفاده
مفهوم digram و n-gram
ایجاد نگاشت بین فیچرها و دیتاست
ایجاد مدل آموزشی رگرسیون لجستیک با MLlib Spark
الحاق دیتاستهای نمونه با مبدل Union و تولید داده های آموزشی و آزمون
ایجاد یادگیرنده رگرسیون لجستیک با بهینه ساز LBFGS
اعمال مدل رگرسیون به داده های آموزشی
ایجاد برچسب پیش بینی برای تست مدل
ارزیابی عملکرد مدل فیلترینگ هرزنامه رگرسیون لجستیک با شاخص دقت (Accurancy)
مفاهیم فیلترینگ هرزنامه با استفاده از تئوری نایو بیز (Naive Bayes)
پیاده سازی روش اسپم فیلترینگ بیزی Naive Bayes)) با کتابخانه MLlib Spark -
دستورات ایجاد و تست مدل آموزشی بیزی با MLlib Spark
ارزیابی مقایسه ای عملکرد مدلهای Logistic regression و Bayesian
دسترسی به رابط گرافیکی تحت وب اسپارک و بررسی وضیعت اجرای برنامه
فصل سوم: ایجاد کلاستر محلی اسپارک با نرم افزار مجازیسازی Oracle Virtualbox در ویندوز
پیش نیازهای سخت افزاری و نرم افزاری
معماری کلاستر مستقل اسپارک در مد محلی( Spark Local-mode Structure)
نصب Linux-CentOS- minimal بعنوان میزبان مجازی در ماشین محلی ویندوز با Virtualbox
غیر فعال کردن Ipv6 و فایروال در ماشین مجازی
پیکربندی ماشین مجازی و تنظیمات شبکه
راه اندازی ماشین مجازی
استخراج مشخصات اینترفیسها و IP آدرس ماشین مجازی
انتقال ساده فایلها بین ماشین ویندوز و میزبان مجازی CentOS در محیطی گرافیکی با پروتکلهای امن
اتصال به خط فرمان ترمینال لینوکس CentOS و بکارگیری آن در محیط ویندوز با اتصال SSH
راه اندازی آفلاین و سریع ابزار تو،سعه جاوا ( JDK) در ماشین مجازی CentOS
تنظیم متغیرهای محلی جاوا با ویرایشگر viدر ماشین مجازی
پیکربندی کلاستر محلی اسپارک
معرفی دایرکتوری نصب Apache Spark
راه اندازی کلاستر محلی اسپارک و دسترسی به spark-shell در مد Local

پرداخت با کلیه کارتهای عضو شتاب امکان پذیر است.

تحلیل داده های بازار بورس در کلاستر هادوپ با رابط گرافیکی Hue با ابزار Hive و Excel

          سعید 
            بازدید : 21
          سه شنبه 29 بهمن 1398
           نظرات (0)
        

تحلیل داده های بازار بورس در کلاستر هادوپ با رابط گرافیکی Hue با ابزار Hive و Excel

فرمت فایل دانلودی: .rar
فرمت فایل اصلی: doc
تعداد صفحات: 76
حجم فایل: 3892 کیلوبایت
قیمت: 28000 تومان

توضیحات:
آموزش تحلیل داده های بازار بورس در کلاستر هادوپ با رابط گرافیکی Hue با ابزار Hive و Excel، در قالب فایل word و در حجم 76 صفحه، بصورت تصویری و همراه با توضیحات کامل و کاربردی.

این فایل آموزش گام بگام تحلیل کلان داده های بازار بورس در کلاستر مجازی هادوپ در رابط گرافیکی Cloudera Hue با Apache Hive و ایجاد داشبورد مدیریتی با Excel می باشد.

Big Data. (کلان داده)، دارایی‌هایی از جنس داده، با حجمی انبوه، روند تولید پرشتاب، با فرمتهای گوناگون و حاوی ارزش نهفته در درون خود هستند. این نوع از داده ها نیاز به روش‌های پردازشی تازه‌ای دارند تا تصمیم‌گیری بهتر، بینش تازه و ارزش آفرینی بیشتر را برای صاحبانشان به ارمغان آورند.
اما: چگونه این حجم بزرگ و متنوع داده ها و اطلاعات را با توجه به ساختار هایی که در فضای فناوری اطلاعات وجود دارد، می توان مدیریت، کنترل و پردازش کرد و از آن در جهت بهبود ساختارها و سودآوری بیشتر بهره جست؟ تحلیل داده های عظیم فرایندی است که مهمترین هدف آن ارایه راهکارهای کارامد، برای پاسخگویی به این پرسش است.
اخیرا" مطالعه و فعالیت در حوزه های مرتبط با Big Data در کشور ما ، چه به بعنوان موضوعی بروز و ارزشمند در سطح پژوهشهای دانشگاهی و چه بعنوان مهارتی استراتژیک و پرتقاضا در بازار کار ، مورد توجه و استقبال اساتید ، دانشجویان عزیز ، متخصصان و دست اندرکاران حوزه ارتباطات و فناوری گرفته است،
بدلایل مختلفی، نظیر نوپا بودن تحقیقات در این حوزه، کمبود نمونه های کاربردی، مشکلات مربوط به تهیه داده های معتبر، در دسترس نبودن امکانات سخت افزاری، نرم افزاری ، فقدان آموزشها و کارگاههای آموزشی داخلی (و در صورت وجود هزینه بالای آنها) و همینطور چالشهای موجود برای تامین منابع علمی بروز بعلت تحریمهای علمی، در اغلب اینگونه پژوهشها ، دانشجویان عزیز، بویژه کسانیکه تجربه فعالیت قبلی در این حوزه ندارند، خصوصا" در مرحله’ ارائه سناریوهای کاربردی، با نواقصی مثل وقفه های کاری ، سردرگمی، هدر رفتن زمان زیاد و نامعقول در حین آزمون و خطاهای مکرر مواجه میشود.

در این آموزش، ما چکیده اطلاعات و تجربیاتی که از منابع مختلف آموزشی شامل فیلمهای آموزشی، پایگاههای داده علمی معتبر، کورسهای آنلاین، مقالات و تجربیات متخصصین حوزه Big data بدست آمده است را با یک مدل آموزشی نوین "بیان ساده’ مفاهیم پیچیده" (Simple expression of complex concepts )تلفیق کرده و با هدف ارتقای مهارتهای عملی دانشجویان در پیاده سازی سناریوهای مبتنی بر Big Data ارائه کرده ایم. روشها و ابزارهای مختلفی برای دستیابی به بهترین گزینه آزمایش شده و تلاش بر این بوده که جدیدترین، ساده ترین، در دسترس ترین و کارامدترین روش را که تهیه پیش نیازهای آن برای اکثر دانش پژوهان کشورمان مقدور باشد را برگزیده و به اشتراک بگذاریم .

در این محصول آموزشی مراحل پیاده سازی یک سناریوی عملی در حوزه Big Data را بصورت گام به گام از ابتدا و بصورت کاملا" تصویری آموزش داده ایم. بطوریکه کاربر از بدو امر در جریان انجام عملی سناریو قرار میگیرید ، و در حین انجام کار عملی اطلاعات مفهومی هر قسمت را هم مطالعه میکنید.
، ضمنا" بخشی بعنوان ضمیمه برای توضیحات تکمیلی مرتبط در نظر گرفته شده و لینکهایی برای مطالعات بیشتر نیز پیشنهاد گردیده است.

شرح سناریو:
ابتدا با استفاده از بسته ماشین مجازی هادوپ بنام Cloudera quickstart VM CDH-5 (حجم 4.8 گیگا بایت)، ارایه شده توسط شرکت کلودرا و نرم افزار مجازیسازی Vmware workstationدر محیط ویندوز ، یک کلاستر هادوپ تک گره (Single-Node) ایجاد میکنیم.سپس با بکارگیری رابط گرافیکی تحت وب مدیریت هادوپ بنام هیو ( Hue Cloudera) به تحلیل عملی مجموعه داده های بازار بورس ایا لات متحده ، طی سالهای 2009 الی 2014 میپردازیم.
در فرایند تحلیل در کلاستر هادوپ ، از ابزار Apache Hive استفاده میکنیم.
نهایتا" دیتاست خروجی را بعنوان نتیجه تحلیل به محیط ویندوز منتقل کرده و نحوه ایجاد چارتهای گزارشی و داشبورد مدیریتی با افزونه Power Pivot در محیط نرم افزار اکسل آموزش میدهیم.
در انتهای آموزش در کمترین زمان، و ساده ترین روش با مجموعه زیادی از مفاهیم اساسی در حوزه داده های عظیم ازجمله، مجازی سازی سرور ، ساختار پلتفرم هادوپ ، ایجاد کلاستر مجازی هادوپ ،کار با رابط کاربری Cloudera Hue ، کار با کنسول Hive ، ساخت دیتابیس و جداول داخلی و خارجی در کنسول هایو، ایجاد انواع پرس و جو در هایو، انتقال داده ها به جداول هایو و تحلیل آنها با پرس و جوهای سفارشی ، آپلود و دانلود فایل از فایل سیستم HDFS به سیستم محلی و بالعکس، مدیریت کلاستر مجازی هادوپ از محیط ویندوز، تبدیل جداول هایو به فرمت csv ، استفاده از محیط اکسل برای تهیه’ گزارشها و داشبوردهای مدیریتی اکسل و تحت وب و.... بصورت عملی آشنا شده اید. حالا شما ، بدون هیچگونه اغراقی در زمره معدود دانش پژوهان کشور قرار دارید که مهارت ایجاد و مدیریت یک پروژه’ کلان داده از نقطه’ صفر تا تحویل نهایی راکسب کرده است. با کمی تلاش و انگیزه میتوانید بسترهای دارای پتانسیل بالا و قابل پیاده سازی با تکنیکهای مبتنی بر Big Data را در حوزه های مختلف شناسایی ،در جهت رفع چالشهای آنها، سناریوهای خلاقانه و راه حلهای نوین با محوریت مدیریت داده های حجیم در کلاسترهای حقیقی چند گره و محیطهای واقعی ارائه کنید.
دیتا ستهایی که در این پژوهش استفاده شده، شامل 7 Dataset با فرمت csv با حجم 154 مگابایت است که از وبسایتهای خارجی تهیه شده است. ما پوشه کامل این داده ها را در قالب یک فایل فشرده، با حجم 47 مگابایت در یک سرور داخلی آپلود کرده و لینک آن را برای استفاده و دانلود در متن آموزش به اشتراک گذاشته ایم.
نکته مهم: اجرای عملی این آموزش، مستلزم دسترسی به امکانات سخت افزاری و نرم افزاری زیر میباشد.

ملزومات سخت افزاری و نرم افزاری برای پیاده سازی:
• لپ تاپ یا PC ویندوز 64 بیتی ورژن 7 و بالاتر با حداقل 8 گیگا بایت حافظه رم و حداقل 64 گیگا بایت فضای خالی هارد دیسک
• اتصال اینترنت با قابلیت دانلود بسته های اینترنتی با حجم بالا
• نصب نرم افزار Vmware Workstation نسخه 8 و بالاتر
• دانلود بسته آماده ماشین مجازی هادوپ شرکت کلودرا ((Cloudera quickstart VM CDH-5
• نرم افزار MS Excel - نسخه 2010 و بالاتر
قالب: داکیومنت word قابل ویرایش

پرداخت با کلیه کارتهای عضو شتاب امکان پذیر است.

پاورپوینت همه چیز در مورد Hadoop (زبان ویژه Big Data)

          سعید 
            بازدید : 49
          یکشنبه 27 بهمن 1398
           نظرات (0)
        

پاورپوینت همه چیز در مورد Hadoop (زبان ویژه Big Data)

فرمت فایل دانلودی: .zip
فرمت فایل اصلی: pptx + pdf
تعداد صفحات: 43
حجم فایل: 2932 کیلوبایت
قیمت: 13000 تومان

توضیحات:
پاورپوینت همه چیز در مورد Hadoop (زبان ویژه Big Data)، بر اساس ترجمه فارسی فصل 4 (تا صفحه 65) کتاب understanding bigdata، در حجم 43 اسلاید همراه با توضیحات کامل و تصاویر، به انضام فایل pdf متن انگلیسی فصل چهارم کتاب مربوطه.

بخشی از متن:
Hadoop یک پروژه سطح بالای Apache در بنیاد نرم افزار Apache که به وسیله Java نوشته شده است.
ساخت محیط محاسباتی بر روی فایل سیستم خوشه ای توزیع شده که اختصاصا برای خیلی از عملیات مربوط به داده های با مقیاس بالا مناسب است.
به طور خلاصه ، هدوپ یک فریم‌ورک یا مجموعه‌ای از نرم افزارها و کتابخانه‌هایی است که ساز و کار پردازش حجم عظیمی از داده های توزیع شده را فراهم میکند. در واقع Hadoop را می توان به یک سیستم عامل تشبیه کرد که طراحی شده تا بتواند حجم زیادی از داده ها را بر روی ماشین های مختلف پردازش و مدیریت کند.

فهرست مطالب:
hadoop چیست؟
تاریخچه Hadoop
نامگذاری Hadoop
Hadoop و Biginsight
بخشهای Hadoop
Map/Reduce چگونه کار می کند؟
ابزارهای Hadoop
pig and piglatin
Hive

پرداخت با کلیه کارتهای عضو شتاب امکان پذیر است.

ایجاد کلاستر شبه توزیعی Spark+Hadoop در ویندوز+ماشین مجازی

          سعید 
            بازدید : 219
          دوشنبه 22 خرداد 1396
           نظرات (0)
        

ایجاد کلاستر شبه توزیعی Spark+Hadoop در ویندوز+ماشین مجازی

آموزش کامل ایجاد کلاستر شبه توزیعی Spark+ Hadoop در ویندوز در قالب فایل word و در 92 صفحه، بهمراه ماشین مجازی آماده. این فایل شامل آموزش نصب ساده و مدیریت کلاستر شبه توزیعی Hadoop /Apache Spark روی سرور مجازی CentOS در ویندوز همراه لینک دانلود ماشین مجازی آماده استفاده ...

پیاده سازی فیلترینگ هرزنامه با کتابخانه یادگیری ماشین آپاچی اسپارک با زبان Scala

          سعید 
            بازدید : 69
          جمعه 19 خرداد 1396
           نظرات (0)
        

پیاده سازی فیلترینگ هرزنامه با کتابخانه یادگیری ماشین آپاچی اسپارک با زبان Scala

دانلود تحقیق پیاده سازی فیلترینگ هرزنامه با کتابخانه یادگیری ماشین آپاچی اسپارک با زبان Scala، در قالب فایل Word و در 71 صفحه، همراه با دیتاست نمونه و اسکریپت های پیاده سازی. هدف این پروژه ایجاد ماشین اسپم فیلترینگ در کلاستر مجازی Apache Spark با مدل رگرسیون لجستیک ...

تحلیل داده های بازار بورس در کلاستر هادوپ با رابط گرافیکی Hue با ابزار Hive و Excel

          سعید 
            بازدید : 139
          پنجشنبه 18 خرداد 1396
           نظرات (0)
        

تحلیل داده های بازار بورس در کلاستر هادوپ با رابط گرافیکی Hue با ابزار Hive و Excel

آموزش تحلیل داده های بازار بورس در کلاستر هادوپ با رابط گرافیکی Hue با ابزار Hive و Excel، در قالب فایل word و در حجم 76 صفحه، بصورت تصویری و همراه با توضیحات کامل و کاربردی. این فایل آموزش گام بگام تحلیل کلان داده های بازار بورس در کلاستر مجازی هادوپ در رابط گرافیکی Cloudera Hue ...

تبلیغات

مسپاسو

محصولات متاهلین

ایران سی نت

پوشاک,مد روز

لوازم ورزشی و سلامت

لوازم کامپیوتر وموبایل

آرایشی و بهداشتی

لوازم جانبی خودرو

لوازم خانگی

لوازم بادی و تفریحی

لوازم گوناگون

دانلود

دانلود محصولات علمی

ایجاد کلاستر شبه توزیعی Spark+Hadoop در ویندوز+ماشین مجازی

ایجاد کلاستر شبه توزیعی Spark+Hadoop در ویندوز+ماشین مجازی

پیاده سازی فیلترینگ هرزنامه با کتابخانه یادگیری ماشین آپاچی اسپارک با زبان Scala

پیاده سازی فیلترینگ هرزنامه با کتابخانه یادگیری ماشین آپاچی اسپارک با زبان Scala

تحلیل داده های بازار بورس در کلاستر هادوپ با رابط گرافیکی Hue با ابزار Hive و Excel

تحلیل داده های بازار بورس در کلاستر هادوپ با رابط گرافیکی Hue با ابزار Hive و Excel

پاورپوینت همه چیز در مورد Hadoop (زبان ویژه Big Data)

پاورپوینت همه چیز در مورد Hadoop (زبان ویژه Big Data)

ایجاد کلاستر شبه توزیعی Spark+Hadoop در ویندوز+ماشین مجازی

ایجاد کلاستر شبه توزیعی Spark+Hadoop در ویندوز+ماشین مجازی

پیاده سازی فیلترینگ هرزنامه با کتابخانه یادگیری ماشین آپاچی اسپارک با زبان Scala

پیاده سازی فیلترینگ هرزنامه با کتابخانه یادگیری ماشین آپاچی اسپارک با زبان Scala

تحلیل داده های بازار بورس در کلاستر هادوپ با رابط گرافیکی Hue با ابزار Hive و Excel

تحلیل داده های بازار بورس در کلاستر هادوپ با رابط گرافیکی Hue با ابزار Hive و Excel