در این بخش قصد داریم کارهای انجام شده در زمینه‌ی داده کاوی توزیع شده، و استفاده از عامل برای داده ­کاوی را بررسی نماییم. قبل از بیان این موارد ابتدا لازم است تا با ارائه یک ساختار درختی جایگاه کارهای مورد بررسی در حوزه داده کاوی را به صورت کلی نشان دهیم (شکل ۲-۲). تقریباً اکثر کارهایی که در بخش داده ­کاوی توزیع شده و نیز کاربرد عامل برای داده ­کاوی انجام شده و در این گزارش مورد بررسی قرار گرفته­اند، شامل کارهایی هستند که در درخت شکل ۲-۲ در نود شماره ۱.۱.۲.۲ و نودهای فرزند آن قرار می­گیرند.
دانلود پایان نامه
از آنجا که بیشتر کارهای انجام شده در زمینه استفاده از عامل برای داده ­کاوی در زمینه داده ­کاوی توزیع شده بوده است، لذا اجازه دهید تا ابتدا بحث داده ­کاوی توزیع شده را به همراه برخی از مهم‌ترین کارهای انجام شده مورد بررسی قرار دهیم و سپس به بحث استفاده از عامل‌ها در این زمینه بپردازیم.
۱
۱.۲
۱.۱
Data Mining
Static
Dynamic
(Active)
۱.۱.۲
۱.۱.۱
Central
Vertically partitioned
Horizontally partitioned
Data Integration
Distributed
۱.۱.۲.۱
۱.۱.۲.۲
۱.۱.۲.۲.۲
۱.۱.۲.۲.۱
Model Integration
شکل ۲- ۲: درخت تحقیق مبحث داده‌کاوی
۲-۶-۱- داده ­کاوی توزیع شده
در [۳۱] آقای گروسمن، داده‌کاوی را استخراج نیمه اتوماتیک مدل‌ها، الگوها، تغییرات، ناهنجاری‌ها، و دیگر ساختارهای مهم آماری از مجموعه داده‌های بزرگ تعریف کرده است. کاوش پایگاه داده‌های توزیع شده [۳۱-۳۳] موضوعی کاربردی است که حجم عظیم تحقیقات انجام شده در این حوزه، سبب پیشرفت چشم‌گیری در تکنیک‌های طبقه‌بندی [۳۴-۳۶]، خوشه‌بندی [۳۷, ۳۸]، OLAP [39, ۴۰]، کاوش الگوریتم‌های پرتکرار [۴۱-۴۴]، کاوش جریان داده [۴۵, ۴۶]، و ارزیابی شباهت پایگاه داده‌ها [۴۷, ۴۸] شده است. تقریباً، در هر حوزه اصلی پژوهشی داده کاوی، حداقل یک ماژول یا الگوریتم کاوش توزیع شده وجود دارد. موضوعات اصلی این فعالیت‌های تحقیقاتی، به اشتراک گذاشتن شباهت‌هاست به این ترتیب که همه‌ی آن‌ها از روش یکپارچه کردن و/ یا مقایسه منابع داده توزیع شده برای رسیدن به هدف مشترک بهره می‌برند.
به طور کلی، دو گروه عمده در تحقیقات مربوط به داده ­کاوی توزیع شده قابل تشخیص است. گروه اول عبارت است از کارهائی که به از بین بردن مشکل توزیع اطلاعات از راه تجمع اطلاعات در یک نقطه مرکزی با بهره گرفتن از الگوریتم‌ها و پروتکل‌های بهبود یافته شبکه می­پردازند و با فرض این مسئله که در داده ­کاوی توزیع شده دقت و هزینه (ناشی از انتقال اطلاعات) مقابل یکدیگر قرار دارند، برای دست‌یابی به یک راه­حل قابل قبول از طریق وضع یک استراتژی افزایش دقت در مقابل حداقل هزینه (در حالتی که هزینه انتقال اطلاعات قابل صرف­نظر نیست) تلاش می­ کنند. سیستم Papyrus بر این مبنا استوار است.[۴۹] این دسته از کارها در درخت تحقیق شکل ۲-۲ در نود ۱.۱.۲.۲.۱ قرار می­گیرند. گروه دوم از کارهای انجام شده در زمینه داده ­کاوی توزیع شده، با در نظر گرفتن حالت‌های مختلف توزیع اطلاعات، به ارائه روش‌هایی برای داده ­کاوی بدون انتقال اطلاعات خام به یک نقطه مرکزی و معمولاً از طریق جابه­جائی اطلاعات میانی مختلف بین سایت‌ها می‌پردازند؛ معمولاً در تمام این روش‌ها، تلاش بر حداقل ساختن ارتباطات است. این گروه از کارها در درخت تحقیق شکل ۲-۲ در جایگاه ۱.۱.۲.۲.۲ قرار دارند. در پژوهش [۵۰] روشی برای استخراج قواعد وابستگی از اطلاعات توزیع شده، با حداقل ارتباط بین فرآیندهای در حال استخراج قوانین ارائه می­ کند. همچنین به عنوان نمونه ­ای از تحقیقات انجام شده در زمینه حفظ حریم خصوصی در فرایند داده ­کاوی، می­توان به [۵۱] اشاره نمود. دو نمونه دیگر از کاربردهای داده ­کاوی توزیع شده را می­توانید در [۵۲] و [۵۳] مشاهده کنید. در این دو مرجع با بهره گرفتن از مدل‌های ایجاد شده به صورت توزیع شده توسط نودهای مختلف در شبکه و سپس ایجاد مدل داده کلی، سعی می­ شود تا عملیات نفوذ به شبکه شناسایی و خنثی گردد. البته در [۵۳] در هر نود مذکور در شبکه یک عامل قرار دارد که فعالیت‌های مربوط به ایجاد مدل داده و ارتباط با دیگر عامل‌ها را بر عهده دارد.
از دیدگاه طبقه‌بندی و خوشه‌بندی، مشکل کشف الگو از پایگاه داده‌های توزیع شده ناشی از چگونگی آموزش مدل‌های کلی از اطلاعات بدست آمده از چندین پایگاه داده است. برای تحقق این هدف از دو روش می‌توان استفاده کرد، جمع آوری داده‌ها در قالب یک نگاه واحد، و یا یکپارچه‌سازی مدل‌های ساخته شده از پایگاه داده‌های مجزا.[۵۴, ۵۵] Kargupta و همکاران یک چارچوب داده کاوی اشتراکی با یک کلید اصلی برای یکپارچه کردن داده‌ها در یک نگاه واحد پیشنهاد دادند.[۵۶] فرضیات مشابهی برای حفظ حریم خصوصی در داده کاوی [۵۷, ۵۸]، یک‌دسته کردن و جمع آوری خوشه‌ها [۳۸]، و یکپارچه سازی مدل برپایه‌ی کرنل [۵۴]، از داده‌های ناهمگون ارائه شده است. یین[۲۷] و همکارانش یک کاوشگر عرضی برای طبقه‌بندی پایگاه داده‌های رابطه‌ای چندگانه پیشنهاد داده بودند. [۵۹] وانگ[۲۸] و همکارانش، مشکل تقویت خوشه‌بندی چند نوع شی بین رابطه‌ای (به عنوان مثال اسناد وب) را مورد بررسی قرار دادند.[۶۰] مشکل کاوش الگوی پرتکرار برای پایگاه داده‌های توزیع شده به خوبی مورد مطالعه قرار گرفته است [۴۲, ۴۳, ۵۰, ۵۶, ۶۱-۶۷] و سه سازوکار توزیع شمارشی[۲۹]، توزیع داده‌ها، و توزیع کاندید[۳۰] ارائه شده است. [۵۶] در تمام این فعالیت‌های پژوهشی، در درجه‌ی اول، تمرکز بر روی کاوش پایگاه داده‌های بزرگ، یا جریان‌های داده متوالی (به عبارتی کاوش الگوهای ال[۳۱])، یا یکپارچه کردن الگوهای کشف شده از پایگاه داده‌های مجزا در قالب یک دانش جدید (به عبارتی کاوش الگوهای جی[۳۲]) بوده است. همچنین برخی از معماری‌های سیستم به منظور کشف الگوهای پرتکرار از مجموعه داده‌های در مقیاس ترابایت که بر روی سیستم‌های خوشه‌ای اجرا می‌شوند [۶۸]، طراحی شده‌اند که از داده ساختارهای فشرده (مشابه درخت FP[33] [۶۹])، و متدهای رمزنگاری مختصر استفاده می‌کنند. هرچند، این چارچوب‌ها و راه حل‌ها دامنه‌ی کاری خود را به حجم داده محدود می‌کنند، اما، هیچ سازوکاری برای مطالعه‌ی مقایسه‌ای بر روی پایگاه داده‌های متعدد و کشف روابط بین الگوها ندارند.
هنگامی که داده‌ها در چندین منبع داده (متمرکز یا توزیع شده) وجود دارند، یکی از مهم‌ترین کارها، بررسی شباهت بین پایگاه داده‌ها برای کشف اطلاعات ساختاری بین آن‌ها به منظور خوشه‌بندی[۷۰] یا طبقه‌بندی[۷۱] است. آقایان parthasarathy [72] و لی [۴۷] مشکل ارزیابی شباهت پایگاه داده با مقایسه قوانین انجمنی از پایگاه داده‌های مختلف، به عنوان مثال، قوانین یکسان کشف شده از پایگاه داده‌های مختلف، و تعداد تکرار نمونه‌هایی که از آن قانون تبعیت می‌کنند، را مورد بررسی و مطالعه قرار دادند. اهمیت یافتن اختلافات بین پایگاه داده‌ها، مسئله‌ای است که توسط محققان بسیاری مورد مطالعه قرار گرفته است [۴۸, ۷۳-۷۵]، و اکثر روش‌ها بر روی مقایسه‌ی یک جفت پایگاه داده در یک زمان تمرکز دارند. وب[۳۴] و همکارانش، یک روش بر پایه‌ی قانون، به منظور کشف مجموعه تضادهای بین دو پایگاه داده پیشنهاد دادند.[۴۸] Xu و همکارانش، روشی برای کشف انتظارات نسبی بین محصولات از دیدگاه مشتریان پیشنهاد دادند.[۷۶] در مرجع [۷۵]، روش‌هایی برای ارزیابی هم‌ارزی مفهومی بین دو پایگاه داده ارائه شده است. جی و همکارانش، روش‌هایی برای کشف الگوهای متوالی با حداقل تمایز بین دو مجموعه داده، پیشنهاد دادند [۷۷] که در آن الگوها به صورت “پرتکرار در پایگاه داده‌ی A و به طور قابل توجهی کم تکرار در پایگاه داده‌ی B"، به عبارت دیگر، {(A≥α) & (B≤β)} وجود دارند. تمام این روش‌ها بر یافتن اختلافات (در قالب اقلام داده و یا الگوها) بین دو مجموعه داده، تمرکز دارند، اما نمی‌توانند از جستجوهای پیچیده پشتیبانی کنند.
تحقیقات بسیاری در حوزه جستجوی پایگاه داده، و پشتیبانی از عملیات داده کاوی [۷۸-۸۱] صورت گرفته است، و زبان‌های جستجوی پایگاه داده برای پشتیبانی از عملیات کاوش، گسترش یافته‌اند، اما اغلب فعالیت‌های پژوهشی بر روی یک پایگاه داده‌ی مستقل با شرایط جستجوی نسبتاً ساده تمرکز کرده‌اند. در مرجع [۷۸] جین و Agrawal، یک سازوکار برپایه‌ی SQL برای کاوش الگوهای پرتکرار بین چندین پایگاه داده، با هدف بهینه سازی جستجوهای کاربران به منظور یافتن الگوهای واجد شرایط ارائه دادند. ۳ نکته‌ای که در مورد این مقاله باید مورد توجه قرار گیرد: ۱) فعالیت‌های انجام شده در تحقیقات آن‌ها تنها بر روی شمارش برنامه‌های جستجو و انتخاب موردی که کم‌ترین هزینه را دارد، تمرکز کرده‌اند. ۲) به دلیل محدودیت‌های چارچوب کاوش الگوی آن‌ها (که بر روی پایگاه داده‌های مستقل کار می‌کردند)، راه حلی که آن‌ها ارائه دادند، تنها می‌تواند پاسخگوی جستجوهای ساده باشد، به عبارت دیگر، هر کدام از مؤلفه‌های این جستجو باید به صراحت یک پایگاه داده‌ی واحد و مقدار آستانه‌ی متناظر با آن را مشخص کنند، مانند {(Si≥α۱) & (Sj≥α۲) & (Sk≤β)}. بنابراین روش‌های آن‌ها نمی‌تواند جستجوهای پیچیده را جوابگو باشد، و بنابراین کاربرد آن محدود است؛ و ۳ ) روش‌های آن‌ها فقط برای پایگاه داده‌های متمرکز قابل اجرا هستند، در صورتی که ما قصد داریم داده کاوی و کشف دانش را بر روی پایگاه داده‌های توزیع شده انجام دهیم.
۲-۶-۲- کارهای مهم انجام شده در زمینه داده ­کاوی با بهره گرفتن از عامل
این دسته از روش‌ها، رویکرد مبتنی بر عامل را در مواجهه با مسئله داده کاوی توزیع شده پیش­ می‌گیرند. اگرچه، همان­گونه که در ادامه به تفصیل بیان خواهد گردید، این رویکرد غالباً به نوع نام‌گذاری راه­حل ارائه شده بازمی­گردد و نه به خصایص ذاتی عامل (به خصوص هوشمندی). این دسته از روش‌ها در درخت تحقیق شکل ۲-۲ در نود ۱.۲.۲ و به طور دقیق‌تر در نود ۱.۱.۲.۲ قرار می­گیرند.
سیستم‌های شناخته شده که داده ­کاوی توزیع شده را با بهره گرفتن از عامل‌ها پیاده­سازی می­ کنند عبارتند از: سیستم‌های [۳۵]JAM [82] و [۳۶]PADMA [83]. عامل‌های جاوا برای ابریادگیری (JAM)، نام یک سیستم توزیع شده است که با بهره گرفتن از عامل‌ها به داده ­کاوی می ­پردازد. این سیستم از تعدادی سایت تشکیل شده است که هر سایت دارای بانک اطلاعاتی خاص خود و نیز تعدادی یادگیرنده می­باشد. دو گروه کلی از یادگیرنده­ها وجود دارد: یادگیرنده­هائی که در سطح اطلاعات خام عمل می­ کنند و یادگیرنده‌هائی که توانائی ادغام یادگیرنده­های دیگر را دارند (ابریادگیرنده­ها). سایت‌ها با رابط تعریف شده‌ای با یکدیگر ارتباط برقرار کرده و درخواست مواردی نظیر ساختار بانک اطلاعاتی یک سایت دیگر (در اینجا صرفاً ساختار یک جدول اطلاعاتی مورد نظر است) و یا فهرست یادگیرنده­های آن را مطرح می‌نمایند. در اینجا قصد نداریم به بررسی نقاط ضعف چنین رویکردی برای داده ­کاوی روی اطلاعات ناهمگون بپردازیم، بلکه موضوع را صرفاً از دید عامل‌ها و سیستم‌های چندعامله مورد بررسی قرار می­دهیم.
سیستم JAM دارای تعدادی خصیصه مفید و مهم است. نسبتاً باز بودن سیستم، به این صورت که هر یادگیرنده­ای در صورت پیاده­سازی یک واسط تعریف شده توسط سیستم، که بسیار ساده بوده و یک یادگیرنده صرف نظر از تمایل آن به حضور در سیستم JAM، باید دارای چنین واسطی باشد، می ­تواند در سیستم به کار گرفته شود. به اشتراک گذاشتن یادگیرنده­ها بین سایت‌های مختلف، از دیگر مزایای این سیستم است که امکان جابه­جائی یادگیرنده­ها (عملاً برنامه ­های یادگیرنده) را بین سایت‌های مختلف امکان‌پذیر می­سازد. لازم به ذکر است که چنین امکانی به مفهوم ساخت یک طبقه‌بندی کننده بر روی داده‌های توزیع شده نیست، بلکه صرفاً به معنی امکان بهره­ گیری از یادگیرنده­های متنوع در حل یک مسئله محلی است.
سیستم JAM، علیرغم مزایایی که برشمرده شد، دچار کاستی­هائی است که حتی نحوه نام­گذاری آن را نیز با پرسش روبرو می­سازند. نخستین نقص به نحوه عملکرد سایت‌ها برمی­گردد. سایت‌ها در سیستم JAM، بر اساس وقایع عمل می­ کنند که هر واقعه یا توسط سرپرست سایت ایجاد شده و یا توسط سایت‌های دیگر، که در مورد اخیر نیز در نهایت یک کاربر درخواست کار را مطرح نموده است. چنین رویکردی با یکی از اصول بنیادین مطرح در تعریف عامل در تضاد است: خودآغاز بودن و دریافت پیوسته علائم از محیط و عمل بر اساس این دریافت‌ها. بنابراین اطلاق لفظ عامل به یادگیرنده­های مطرح در سیستم JAM با اشکال همراه است. دومین اشکالی که بر اساس تعریف عامل در سیستم مذکور وجود دارد، عدم توجه به مسئله تعادل بین رفتار واکنشی و رفتار پیش فعال است. در اینجا یادگیرنده­ها صرفاً بر اساس یک الگوریتم یادگیری ماشین، به استخراج دانش از مجموعه­ اطلاعات ارائه شده به عنوان ورودی پرداخته و هیچ رفتار دیگری برای آن‌ها در نظر گرفته نمی­ شود.
اگرچه سیستم JAMهرگز اشاره­ای به مفهوم سیستم‌های چندعامله ندارد، اما جهت فراهم آمدن امکان مقایسه بعدی، سیستم مذکور را از این جنبه نیز مورد توجه قرار می­دهیم. در نگاه نخست، JAM دارای خواصی مشابه با سیستم‌های چندعامله می­باشد: وجود اشیاء و قوانین محیطی؛ اما از سوی دیگر، حتی با قبول وجود عامل‌ها (در واقع یادگیرنده­ها) در سیستم مذکور، با چند مورد نقض تعریف سیستم چندعامله مواجه هستیم. نخست آنکه مفهوم ارتباط بین عامل‌ها فراتر از تعریف یک یا چند واسط مشخص و ثابت، آن گونه که در سیستم JAM انجام شده است، می­باشد؛ در واقع در یک سیستم چندعامله به حداقل یک پروتکل ارتباطی که قوانینی را برای مشخص کردن نحوه به کار­گیری زبان ارتباطی مشخص می­نماید، نیاز داریم. هر عامل بر حسب معماری و هدف خود، با سایر عوامل محیطی ارتباط برقرار خواهد کرد. همچنین مسئله تأثیر عامل‌ها بر محیط نیز در اینجا در نظر گرفته نشده است.
دومین سیستمی که در اینجا مورد بررسی قرار می­دهیم، سیستم PADMA (داده کاوی موازی توسط عامل‌ها) می­باشد. سیستم مذکور، شامل تعدادی عامل، واسط کاربری و یک هماهنگ­کننده می­باشد. نقش اصلی هماهنگ­کننده در سیستم، دریافت درخواست‌های کاربر و ارجاع آن‌ها به عامل‌ها و سپس جمع‌ آوری و ترکیب نتایج دریافت شده از عامل‌ها می­باشد. هر عامل دارای دو توانائی اصلی می­باشد: خوشه­بندی و پاسخ به پرس­و­جو، که قابلیت اخیر امکان دسترسی موازی به اطلاعات ذخیره شده در یک بانک اطلاعاتی را فراهم می ­آورد. نتایج هر یک از این دو فرایند انجام شده توسط هر عامل، به هماهنگ‌کننده منتقل می­گردد تا نتیجه نهایی از ترکیب نتایج میانی حاصل شود. هر عامل به صورت مستقل بر روی اطلاعات در دسترس خود عمل می­ کند؛ به عبارت دیگر، یکی از خواص سیستم‌های چندعامله که عدم دسترسی یک عامل تنها به تمامی منابع لازم برای دست‌یابی به هدف می­باشد، در اینجا رعایت شده است.
سیستم PADMA نیز با کمبودهائی مشابه با سیستم JAM همراه است. همچنان که از تعریف سیستم مشخص است، در این مورد نیز مسئله خودکار بودن عامل و همچنین تعدد عملیات انجام­پذیر در هر لحظه، نادیده گرفته شده است و عامل‌ها صرفاً به پرس­و­جوی کاربر پاسخ می­ دهند. دخالت مستقیم کاربر در عملیات، با تعریف عامل در تضاد آشکار است. همچنین مسئله ارتباط بین عامل‌ها در مورد سیستم PADMA نیز حل نشده باقی مانده و به جای پروتکل ارتباطی، یک زبان ارتباطی با امکان انتقال اطلاعات خام و گراف‌های مفهوم، تعریف شده است. تصمیم ­گیری برای شرکت یا عدم شرکت در یک فرایند داده‌کاوی توزیع شده، به هیچ وجه جزء اختیارات عامل منظور نشده و تنها می­توان نوعی همکاری ساده (در قالب انتقال نتایج به یک هماهنگ­کننده) را بین عامل‌ها تشخیص داد؛ بدیهی است که این نوع از همکاری، با آنچه در مورد سیستم‌های چندعامله مطرح است تفاوت زیادی دارد؛ در اینجا حتی هماهنگی بین عامل‌ها (انجام بعضی عملیات در صورت وقوع شرایط خاص ناشی از اعمال سایر عامل‌ها) نیز ضروری نبوده و صرف ادغام نتایج پس از حصول اطمینان از دریافت نتایج کار تمام عامل‌ها، برای دست‌یابی به هدف کفایت خواهد کرد. بنا به دلایل فوق، ۱) سیستم PADMA بر مبنای سیستم‌های چندعامله نیست، اگرچه نویسندگان نیز چنین ادعایی را مطرح نکرده ­اند و ۲) برخلاف نام‌گذاری انجام شده در مورد PADMA، این سیستم را نمی­ توان مبتنی بر عامل دانست. بدیهی است که با توجه به موارد مطرح شده، اطلاق عنوان داده ­کاوی توزیع شده از طریق سیستم‌های چندعامله به سیستم PADMA صحیح نمی ­باشد. البته در زمینه بهره­­گیری از عامل‌ها برای داده ­کاوی کارهای دیگری نیز انجام گردیده است که برای مطالعه بیشتر می­توانید به [۸۴] مراجعه نمایید.
۲-۷- جمع­بندی
در این فصل ما ابتدا به معرفی داده ­کاوی و تکنیک‌های آن پرداختیم، تکنیک کاوش قواعد انجمنی را به تفصیل مورد بررسی قرار دادیم، سپس داده ­کاوی توزیع شده، عامل و سیستم‌های چندعامله، و موارد کاربرد عامل را برای داده ­کاوی مورد بررسی قرار دادیم، و پس از آن، الگوریتم ژنتیک و مفاهیم بنیادی این حوزه را بیان داشتیم. و در نهایت کارها و تحقیقات انجام شده در این زمینه‌ها را بررسی نمودیم. همان‌طور که مشاهده گردید در مبحث مربوط به استفاده از عامل برای داده ­کاوی توزیع شده بیشتر خصوصیاتی از عامل همچون خودمختاری، خودآغازی و بیشتر از همه بحث متحرک بودن و قابلیت استفاده از آن در محیط‌های توزیع شده مورد بررسی قرار گرفته است، در حالیکه به بهره­ گیری از بسیاری از خصوصیات مهم عامل همچون هوشمندی، قابلیت یادگیری و استدلال، هدف­گرایی و غیره چندان توجهی نشده است.
فصل سوم روش تحقیق
۳-۱- مقدمه
در این فصل، ابتدا شرح مختصری بر داده‌کاوی در محیط‌های توزیع شده و مشکلات و چالش‌های مرتبط با این تکنولوژی ارائه خواهد شد. سپس عامل‌ها و سیستم‌های چند عامله، به عنوان اهرمی برای رفع مشکلات و اصلاح این تکنولوژی مطرح گردیده و مزایای آن برشمرده می‌شود. و در نهایت الگوریتم‌های مطرح در حوزه کشف قوانین انجمنی مورد بررسی قرار خواهند گرفت.
۳-۲- داده کاوی توزیع شده
همانطور که در فصل قبل اشاره شد، داده کاوی توزیع شده به معنای کاوش مجموعه داده‌های توزیع شده می‌باشد. مجموعه داده‌ها در پایگاه داده‌های محلی که توسط کامپیوترهای محلی و از طریق یک شبکه کامپیوتری بهم متصل هستند، ذخیره می‌گردند.[۸۵] در شرایط کنونی، اغلب پایگاه داده‌های بزرگ به صورت توزیع شده وجود دارند، و با توسعه تکنولوژی اینترنت و تعمیم یافتن شبکه‌های کامپیوتری، کشف دانش منابع شبکه، مورد توجه افراد قرار گرفته است، و محیط شبکه‌ای، یک پایگاه داده توزیع شده‌ی بزرگ محسوب می‌شود. زمانی که داده کاوی در محیطی صورت می‌گیرد که کاربران، داده‌ها، سخت‌افزار و نرم‌افزار داده کاوی در مکان‌های جغرافیایی مختلفی هستند، به این عمل داده کاوی توزیع شده می‌گویند. این‌گونه محیط‌ها به طور خاص دارای ویژگی‌هایی مانند غیریکنواختی داده‌ها، کاربران متعدد و حجم زیاد داده‌ها هستند. داده‌کاوی در یک سطح محلی و همچنین در یک سطح عمومی جایی که نتایج داده‌کاوی محلی برای رسیدن به یافته‌های عمومی ترکیب می‌شوند، صورت می‌پذیرد. از داده کاوی توزیع شده اغلب در منابع موجود با عنوان داده کاوی موازی نام برده می‌شود.[۸۶]
با اینکه هر دو روش سعی در بهبود کارایی سیستم‌های داده کاوی سنتی دارند اما آن‌ها ساختارهای متفاوتی را برای سیستم‌ها در نظر می‌گیرند و از شیوه‌های مختلفی بهره می‌گیرند. در داده کاوی توزیع شده کامپیوترها در مکان‌های مختلفی قرار دارند و از طریق تبادل پیام‌ها ارتباط برقرار می‌کنند. در داده کاوی موازی یک کامپیوتر موازی دارای پردازنده‌هایی است که حافظه و یا دیسک را به اشتراک می‌گذارند.
به کامپیوترهایی که در یک سیستم داده کاوی توزیع شده فعالیت می‌کنند می‌توان به دید پردازنده‌هایی که هیچ چیزی را به اشتراک نمی‌گذارند نگریست. این تفاوت در ساختار، تأثیر زیادی بر روی طراحی الگوریتم، مدل هزینه‌ای و اندازه‌گیری کارایی در داده کاوی توزیع شده و موازی دارد.[۸۶]
دو مسئله نیاز به داده کاوی توزیع شده را به ما تحمیل می‌کنند: داده‌ها ممکن است به طور ذاتی توزیع شده باشند و این مسئله می‌تواند به دلایل عملیاتی مختلفی مانند توزیع امن و مقاوم به خطای داده‌ها و خدمات و یا پلت فرم‌های متحرک باشد. همچنین، هزینه انتقال داده‌ها به یک سایت واحد، معمولاً بالا و گاهی اوقات غیرقابل قبول است.[۸۷]
مسئله دوم اینست که تعداد زیادی از الگوریتم‌های کاوش نیاز به این دارند که تمام داده‌ها در حافظه موجود باشند. این امر شاید برای مجموعه داده‌های بزرگ غیرممکن باشد زیرا این الگوریتم‌های یادگیری توانایی پردازش این حجم عظیم داده‌ها را ندارند. قسمت‌بندی داده‌ها یکی از راه‌ حل ‌های معمول برای این مشکل می‌باشد.
در نتیجه، داده کاوی توزیع شده تکنیک‌هایی برای کشف الگوهای مهم در پایگاه داده‌های مجزا، بررسی الگوها از یک منظر واحد، و کشف روابط خاص بین مجموعه داده‌های متفاوت است.[۸۸] الگوریتم‌های داده کاوی توزیع شده معمول، تحلیل داده‌های محلی را صورت می‌دهند که پس از آن با بهره گرفتن از روش‌های یکپارچه‌سازی دانش، دانش عمومی از آن‌ها استخراج می‌شود. یک نمونه از داده کاوی توزیع شده در شکل ۳-۱ نشان داده شده است.
شکل ۳- ۱:یک چارچوب داده‌کاوی توزیع شده
۳-۲-۱- گروه‌بندی مدل‌های داده‌کاوی توزیع شده

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...