اتوکد چیست؟ راهنمای جامع نرم افزار اتوکد (Autocad)
2 فروردین 1399یادگیری ماشین چیست؟ و چه کاربردهایی دارد؟
1 بهمن 1399داده کاوی یا دیتاماینینگ (Data Mining) عبارتیست که اخیرا بسیار بر سر زبانها افتاده است و اگر دانشجوی مهندسی باشید قطعا اسم آن به گوش شما خورده است. کاوش در داده ها برای کشف ارتباطات پنهان و پیشبینی آینده ، سابقه طولانی در تاریخ دارد. داده کاوی به طور خلاصه عبارتست از بررسی دادهها برای پیدا کردن الگو، دادههای غیرنرمال و دسته بندی دادهها برای پیش بینی. شما به کمک تکنیک های مختلف داده کاوی و با استفاده از اطلاعات بدست آمده میتوانید هزینهها را کاهش دهید، بر میزان درآمد اضافه کنید، ریسک را مدیریت کنید و ارتباط بهتری با مشتریان برقرار کنید.
طی دهه گذشته، پیشرفتهای حاصل شده در قدرت پردازشگرها، ما را قادر ساخته است تا فراتر از اقدامات دستی، خسته کننده و وقتگیر به تجزیه و تحلیل سریع، آسان و خودکار داده بپردازیم. در این مقاله در ابتدا تاریخچه داده کاوی را با هم بررسی خواهیم کرد سپس جنبههای مختلف علم داده کاوی و کاربردهای دیتا ماینینگ را در کنار هم مرور خواهیم کرد. پس اگر بدنبال کسب اطلاعات کاملی از علم دادهکاوی هستید این مقاله راهگشای شما خواهد بود.
فهرست مطالب
داده کاوی چیست؟
داده کاوی یا دیتاماینینگ فرایندی است که توسط شرکتها برای تبدیل داده های خام به اطلاعات مفید مورد استفاده قرار میگیرد. برای مثال یک شرکت میتواند فعالیت جامع یک ساله خود را بررسی کند و به این نتیجه برسد که چه عواملی بیشترین تاثیر را در رشد و سوددهی شرکت داشته و یا در چه بازه زمانی شرکت مشتریان خود را از دست داده است. داده کاوی در واقع فرایندِ یافتن ناهنجاریها، الگوها و همبستگیها در مجموعه دادههای بزرگ برای پیش بینی نتایج است. به کمک دادهکاوی با استفاده از طیف گسترده ای از تکنیکها، میتوانید از اطلاعات خام موجود در هر زمینهای برای افزایش درآمد، کاهش هزینهها، کشف تقلب، فیلتر کردن ایمیلها اسپم و موارد دیگر برنامه بچینید.
داده کاوی را نمیتوان محدود به صنف خاص یا چند تکنیک کرد، چرا که می توان در هر صنفی داده کاوی را انجام داد. بعنوان مثال یک صاحب مغازه لباسفروشی هم میتواند از داده کاوی برای بررسی کسب و کار خود استفاده کند. کافیست طبق فاکتورهای فروش فعالیت و درامد چند ماه خود را بررسی کند. با بررسی متوجه خواهد شد که مثلا از فلان لباس بیشترین سود را به دست اورده است، پس میتواند در سریهای بعدی نیز همین محصول را سفارش دهد.
این یک نمونه خیلی ساده از داده کاوی است. در نمونههای پیچیده داده کاوی، یک سازمان بزرگ می تواند از متخصصان داده کاوی کمک بگیرد تا اطلاعات خام شرکت را به نمودار و دیاگرام تبدیل کنند و همه فاکتورها را بررسی کنند تا بهترین تصمیم را برای افزایش درامد سازمان بگیرند.
امروزه داده کاوی با بسیاری از تکنیک ها مانند هوش مصنوعی ، آمار ، علوم داده ، تئوری پایگاه داده و یادگیری ماشین آمیخته شده است.
تاریخچه داده کاوی
ممکن است فکر کنید علم داده کاوی یک علم قرن بیست و یکمی است& این طور نیست و داده کاوی یک رشته با سابقه طولانیست. داده کاوی با روشهای اولیه داده کاوی ها مانند قضیه بیز (سال 1700) و تحلیل رگرسیون (سال 1800) که بیشتر الگوهای شناسایی داده ها بودند، شروع شد. اصطلاح “داده کاوی” تا دهه 1990 ابداع نشده بود. در اوایل دهه 1990، داده کاوی به عنوان یک فرایند فرعی یا گامی در یک فرآیند بزرگتر به نام دانشی در پایگاه های اطلاعاتی (KDD) شناخته شد که باعث ایجاد در واقع “محبوب ترین شخص” شد. معمول ترین تعریفی که از KDD استفاده می شود “فرآیند غیرمعمول شناسایی الگوهای معتبر ، بدیع ، بالقوه مفید و در نهایت قابل درک در داده ها” است.
داده کاوی چگونه کار میکند؟
فرآیند داده کاوی به پنج مرحله تقسیم می شود. ابتدا سازمان دادهها را جمع آوری کرده و در انبارهای داده خود بارگیری میکند. سپس دادهها در سرورهای داخلی یا فضای ابری ذخیره و مدیریت میشود. در مرحله سوم تحلیل گران کسب و کار ، تیمهای مدیریتی و متخصصان فناوری اطلاعات به دادهها دسترسی پیدا کرده و نحوه تنظیم آنها را تعیین میکنند. در گام چهارم، با استفاده از یک نرم افزار کاربردی، داده را بر اساس نتایج کاربر مرتب میکنند و در نهایت، کاربر نهایی داده را در یک قالب به اشتراک گذاری آسان مانند نمودار یا جدول ارائه میدهد.
انواع فرایند های داده کاوی
ادغام داده
ادغام داده ها فرایندی است که داده ها از منابع مختلف داده در یک واحد ادغام می شوند. داده ها در قالب های مختلف در مکان های مختلف نهفته است. داده ها می توانند در پایگاه داده ها، پرونده های متنی، فایلهای اکسل، اسناد، اینترنت و غیره ذخیره شوند.
انتخاب داده
فرایند داده کاوی به حجم زیادی از داده های تاریخی برای تجزیه و تحلیل نیاز دارد. بنابراین، از داده های موجود، داده های مورد علاقه باید انتخاب و ذخیره شوند. انتخاب داده فرآیندی است که در آن داده های مربوط به تجزیه و تحلیل از پایگاه داده انتخاب می شود.
تبدیل داده
تبدیل داده ها و تلفیق داده ها به اشکال مختلفی انجام می شود. تبدیل داده به طور معمول شامل نرمال سازی، تجمیع، تعمیم و غیره است. به عنوان مثال یک مجموعه داده موجود به صورت “-5 ، 37 ، 100 ، 89 ، 78” می تواند به صورت “-0.05 ، 0.37 ، 1.00 ، 0.89 ، 0.78” تبدیل شود. در اینجا داده ها برای داده کاوی مناسب تر می شوند. پس از ادغام داده ها، داده های موجود برای داده کاوی آماده است.
پاکسازی و مرتب کردن داده ها
پاکسازی داده ها فرایندی است که در طی آن داده ها اصلاح و پالایش می شوند. داده ها در دنیای واقعی معمولاً ناقص و متناقض هستند. داده های موجود در منابع داده ممکن است فاقد مقادیر ویژگی، داده های مورد علاقه و غیره باشند. به عنوان مثال، شما اطلاعات دموگرافیک مشتری را می خواهید و اگر داده های موجود ویژگی های مربوط به جنسیت یا سن مشتری را نداشته باشد، چه می کنید؟ گاهی اوقات ممکن است داده ها حاوی خطا یا دور از محتوا باشند. به عنوان مثال ویژگی سن یک داده مساوی با مقدار ۲۰۰ است. بدیهی است که در این مورد مقدار سن اشتباه است. داده ها همچنین می توانند متناقض باشند. به عنوان مثال، نام یک کارمند ممکن است به طور متفاوتی در جداول داده یا اسناد مختلف ذخیره شود. در اینجا، داده ها متناقض است. پاکسازی داده ها شامل تعدادی از تکنیک ها از جمله پر کردن مقادیر از دست رفته به صورت دستی، و بازرسی داده ها با تلفیقی از رایانه و انسان است.
ارزیابی الگو
الگوهای موجود در دادههای شما واقعاً اطلاعات خیلی خوبی را در بر دارند. یک الگوی متناسب با هدف در نظر گرفته می شود اگر بالقوه مفید باشد، به راحتی برای انسان قابل درک است. همچنین با استفاده از الگو هر کسی می تواند از داده ها اطلاعات لازم را به دست اورد و نیاز نیست از متخصصان در این زمینه کمک گرفت.
داده کاوی
داده کاوی فرایند اصلی است که در آن تعدادی روش پیچیده و هوشمند برای استخراج الگوها از داده ها اعمال می شود. فرآیند داده کاوی شامل تعدادی از کارها مانند ارتباط، طبقه بندی، پیش بینی، خوشه بندی، تجزیه و تحلیل سری های زمانی و غیره است.
بازنمایی دانش
اطلاعات استخراج شده از داده ها باید به روشی جذاب و قابل فهم به کاربر ارائه شود. برای ارائه خروجی داده کاوی به کاربران، از تکنیک های مختلف بازنمایی دانش و تجسم داده استفاده می شود.
داده خام بصورت انبوه، حاوی اطلاعات ارزشمندی است که جز با استفاده از تکنیکهای دادهکاوی امکان نمایش آن بصورت نمودارهای قابل فهم وجود ندارد. نمودارها و دیاگرامها فراوردههای علم داده کاوی هستند و بر اساس آن میتوان تصمیمات درست و مبتی بر داده اتخاذ نمود.
کاربردهای داده کاوی یا دیتا ماینینگ
همانطور که در بالا هم اشاره کردیم امروزه داده کاوی در همه صنایع مورد استفاده قرار میگیرد. در زیر چند نمونه از حوزههایی که از داده کاوی بیشتر استفاده کردند را مرور خواهیم کرد.
۱- مخابرات، رسانه و فناوری
شرکت های مخابراتی، رسانهای و فناوری میتوانند با استفاده از مدلهای تحلیلی اطلاعات موجود در مشتریان را درک کرده و رفتار مشتری را پیش بینی کرده و کمپین های بسیار هدفمند و مرتبطی را ارائه دهند.
۲- آموزش
مربیان می توانند با استفاده از دیدگاههای یکپارچه و مبتنی بر دادهها از پیشرفت دانش آموزان، عملکرد دانش آموزان را قبل از اینکه پا به کلاس بگذارند پیش بینی کنند. داده کاوی به مربیان کمک میکند تا به داده های دانش آموزان دسترسی پیدا کنند، سطح موفقیتها را پیش بینی کرده و دانش آموزان یا گروه هایی از دانش آموزان را که نیاز به توجه بیشتری دارند، مشخص کنند.
۳- بیمه
با دانش فنی تحلیلی، شرکتهای بیمه میتوانند مشکلات پیچیده مربوط به کلاهبرداری، انطباق، مدیریت ریسک را حل کنند. شرکتهای بیمه از تکنیکهای داده کاوی برای قیمت گذاری موثرتر محصولات بیمهای و یافتن روشهای جدید برای ارائه محصولات رقابتی به مشتریان موجود خود استفاده کردهاند.
۴- بانکها و صندوقهای مالی
الگوریتم های خودکار به بانکها کمک می کند تا مشتری خود و همچنین میلیاردها معامله را در قلب سیستم مالی درک کنند. داده کاوی به شرکتهای خدمات مالی کمک می کند تا دید بهتری نسبت به خطرات بازار پیدا کنند، سریعتر تقلب را کشف کنند، تعهدات مربوط به مقررات را مدیریت کنند و بازدهی بهینه از سرمایه گذاریهای خود را بدست آورند. داده کاوی یک تکنیک پرکاربرد در بازارهای مالی است.
۵- خردهفروشها
شرکتهای خردهفروشی می توانند کمپین های هدفمندتری را ارائه دهند و با استفاده از دادههای موجود حاصل از کمپینهای قبلی، پیشنهاداتی را پیدا می کنند که بیشترین تأثیر را بر مشتری می گذارد و میزان فروش را افزایش میدهد.
تکنیک های کاربردی و مهم داده کاوی
طبقه بندی
طبقه بندی تکنیک پیچیدهای برای داده کاوی است که شما را مجبور می کند ویژگیهای مختلف دادهها را با هم در دستههای قابل تشخیص جمع آوری کنید، سپس می توانید از آن برای نتیجه گیری بیشتر استفاده کنید یا عملکرد خاصی را روی داداههایتان انجام دهید.
خوشه بندی
خوشه بندی بسیار شبیه به طبقه بندی است، اما شامل گروه بندی تکه های داده با هم بر اساس شباهت آنها است. به عنوان مثال، شما ممکن است انتخاب کنید که جمعیتهای مختلف مخاطبان خود را بر اساس میزان درآمد قابل استفاده آنها یا تعداد دفعات خرید آنها در فروشگاه شما، در بسته های مختلف قرار دهید.
پیش بینی
پیش بینی یکی از با ارزش ترین تکنیک های داده کاوی است، زیرا از آن برای تهیه انواع داده هایی که در آینده خواهید دید استفاده می شود. در بسیاری از موارد، فقط شناخت و درک روندهای تاریخی برای ترسیم پیش بینی تا حدی دقیق از آنچه در آینده اتفاق می افتد، کافی است. به عنوان مثال، ممکن است تاریخچه اعتبار مصرف کنندگان و خریدهای گذشته را مرور کنید.
الگوهای ردیابی
یکی از اساسی ترین تکنیک ها در داده کاوی، یادگیری شناخت الگوها در مجموعه داده های شما است. مثلا ممکن است مشاهده کنید که میزان فروش شما از یک محصول خاص دقیقاً قبل از تعطیلات نوروز افزایش یافته است، یا اینکه متوجه شوید که هوای گرم افراد بیشتری را به سمت وب سایت شما سوق می دهد.
برنامه و نرم افزارهای کاربردی داده کاوی
با پیشرفت داده کاوی و قدرت پردازشی رایانهها ابزارهای مختلفی برای داده کاوی عرضه شده اند. برخی از معروفترین ابزارهای دادهکاوی برای انجام پروژههای داده کاوی به شرح زیر است:
- آر (زبان برنامهنویسی)
- پایتون (زبان برنامهنویسی): کتابخانههای مختلف برای دادهکاوی در پایتون این زبان برنامه نویسی را به یکی از ابزارهای محبوب متخصصان علم داده تبدیل کرده است.
- رپیدماینر
- Clementine که نسخه ۱۳ ان با نام SPSS Modeler نامیده میشود.
- نرمافزار وکا
- متلب
نرم افزارهای متن باز داده کاوی
- Carrot2: پلتفرمی برای خوشه بندی متن و نتایج جستجو
- Chemicalize.org: یک کاوشگر ساختمان شیمیایی و موتور جستجوی وب
- ELKI: یک پروژه تحقیقاتی دانشگاهی با تحلیل خوشهای پیشرفته و روشهای تشخیص دادههای خارج از محدوده که به زبان جاوا نوشته شدهاست.
- GATE: یک پردازشگر زبان بومی و ابزار مهندسی زبان.
در انجام پروژه های داده کاوی خود از چند ضلعی کمک بگیرید.
چند ضلعی ارائه دهنده خدمات انجام پروژه های صنعتی و نرم افزاری، انجام پروژه های تخصصی در تمامی رشتهها