مجله اینترنتی دیتاسرا
امروز یکشنبه ۲۴ آذر ۱۳۹۸

شبکه های عصبی آموزشی رقابتی پیشرفته در مورد تشخیص نفوذ در شبکه و شناسایی کلاهبرداری Improved competitive learning neural networks for network intrusion and fraud detection

Abstract



In this research, we propose two new clustering algorithms, the improved competitive learning network (ICLN) and the supervised improved competitive learning network (SICLN), for fraud detection and network intrusion detection. The ICLN is an unsupervised clustering algorithm, which applies new rules to t h e standard competitive learning neural network (SCLN). The network neurons in the ICLN are trained to represent the center of t h e data by a new reward-punishment update rule. This new update rule overcomes the instability of the SCLN. The SICLN is a supervised version of the ICLN. In the SICLN, the new supervised update rule uses the data labels to guide the training process to achieve a better clustering result. The SICLN can be applied to both labeled and unlabeled data and is highly tolerant to missing or delay labels. Furthermore, the SICLN is capable to reconstruct itself, thus is completely independent from the initial number of clusters.

To assess the proposed algorithms, we have performed experimental comparisons on both research data and real-world data in fraud detection and network intrusion detection. The results demonstrate that both the ICLN and the SICLN achieve high performance, and the SICLN outperforms traditional unsupervised clustering algorithms.



Keywords: Competitive learning, Fraud detection, Intrusion detection, Supervised/unsupervised clustering, Neural network



چکیده فارسی



در این پژوهش، دو الگوریتم خوشه بندی جدید را معرفی می کنیم. شبکه اموزشی رقابتی پیشرفته (ICLN) و شبکه آموزشی رقابتی پیشرفته نظارتی (SICLN) که در زمینه تشخیص کلاهبرداری و تشخیص نفوذ شبکه در می باشند. شبکه اموزشی رقابتی پیشرفته (ICLN) به عنوان الگوریتم خوشه بندی غیرنظارتی می باشد، که قوانین جدیدی را برای شبکه های عصبی آموزشی رقابتی استاندارد (SCLN) اعمال می کند. نورون های شبکه در شبکه آموزشی رقابتی پیشرفته (ICLN)  برای ارائه مرکز داده توسط قوانین بروز شده تنبیه و پاداش جدید آموزش دیده اند. این قوانین بروز شده، بی ثباتی شبکه های عصبی آموزشی رقابتی استانداردSCLN)  ) را از بین می برند. شبکه آموزشی رقابتی یشرفته نظارتی (SICLN) به عنوان نسخه بازبینی شده شبکه اموزشی رقابتی پیشرفته (ICLN) می باشد . در SICLN (شبکه آموزشی رقابتی یشرفته نظارتی (SICLN) ، قوانین بروزرسانی شده نظارتی از دسته بندی داده برای هدایت مراحل آموزش برای دسترسی به نتایج خوشه بندی بهتر استفاده می کند. شبکه آموزشی رقابتی پیشرفته نظارت شده می تواند برای داده های دسته بندی شده و دسته بندی نشده اعمال شده و در سطح بالایی در برابر اتیکت های مفقودی و تاخیری مقاوم می باشد. علاوه بر این، شبکه آموزشی رقابتی یشرفته نظارتی (SICLN) دارای قابلیت بازسازی بوده، بنابراین کاملا مستقل از تعداد اولیه خوشه ها می باشد.



برای ارزیابی الگوریتم های مورد نظر، به مقایسه عملی در مورد داده های تحقیق و داده های حقیقی در تشخیص کلاهبرداری و تشخیص نفوذ شبکه پرداختیم. نتایج اثبات می کند که هر دو مورد ICLN و SICLN به بایگانی عملکرد بالا می پردازند، و SICLN در الگوریتم های خوشه بندی غیرنظارتی سنتی عملکرد بهتری دارد.



کلیدواژه: آموزش رقابتی، شناسایی کلاهبرداری، شناسایی نفوذ، خوشه بندی نظارتی/ غیر نظارتی، شبکه عصبی


مشخصات

مشخصات

توسط: John Zhong Lei, Ali A. Ghorbani مجله: Neurocomputing انتشارات: Elsevier سال انتشار: 2013 میلادی تعداد صفحات متن اصلی: 11 تعداد صفحات متن ترجمه: 32 تاریخ درج: ۱۳۹۵/۷/۱۱ منبع: دیتاسرا

خرید آنلاین فایل ترجمه

خرید آنلاین فایل ترجمه

عنوان: شبکه های عصبی آموزشی رقابتی پیشرفته در مورد تشخیص نفوذ در شبکه و شناسایی کلاهبرداری حجم: 765.27 کیلوبایت فرمت فایل: pdf قیمت: 17000 تومان رمز فایل (در صورت نیاز): www.datasara.com

دانلود فایل اصلی

دانلود فایل اصلی

عنوان: Improved competitive learning neural networks for network intrusion and fraud detection

رمز فایل
رمز فایل (در صورت نیاز): www.datasara.com

نمای مطلب

. مقدمه



تشخیص کلاهبرداری و تشخیص نفوذ در شبکه در کسب و کار تجارت الکترونیک بسیار مهم می باشد. بر طبق به گزارش های تجارت الکترونیک فروش اداره سرشماری ایالات متحده، تجارت الکترونیک در امریکای شمالی دارای رشد 20% یا بیشتر در هر سال می باشد. به هر حال کلاهبرداری در شرکت های تجارت الکترونیک ایالات متحده و کانادا منجر به هزینه تلفات زیادی شده است. با توجه به رشد اخیر در تجارت الکترونیک، کلاه برداری در زمینه کارت های اعتباری بسیار رایج شده است. بر مبنای نتایج بررسی در سال 2009، به طور متوسط، 1.6% از سفارشات بر مبنای کلاه برداری بوده، که حدود 3.3 میلیارد دلار می باشد. علاوه بر ضررهای مستقیمی که از طریق فروش های کلاهبرداری انجام شده است، اعتماد قربانیان کلاهبرداری در زمینه کارت های اعتباری و شرکت خرده فروش کمتر شده، که در نتیجه ضرر ها نیز افزایش یافته است. هدف شرکت ها و صادر کنندگان کارت های اعتباری این است تا هر چه زودتر به افشا یا جلوگیری از کلاه برداری بپردازند. از طرف دیگر نفوذ به شبکه، از پشت به شرکت های تجارت الکترونیک ضربه می زند. زمان وقفه سرورهای وب یا نفوذ به اطلاعات یا کسب و کار مشتری منجر به ضررهای زیادی می گردد.



هر دو زاویه مربوط به تشخیص کلاهبرداری کارت های اعتباری و شناسایی نفوذ به شبکه چالش های زیر را در زمینه داده کاوی مطرح می کند:



- میلیون ها تراکنش در روز انجام می گیرد. بررسی این ججم زیاد داده نیازمند تکنیک هایی با بازده بالا می باشد.



- داده ها در سطح بالایی دارای چولگی می باشند. رویدادهای خوب بسیار زیادی نسبت به موارد بد آن وجود دارد. تکنیک های داده کاوی مبتنی بر دقت معمول می توانند ردیاب های دقیق سطح بالایی را تنها با پیش بینی تراکنش های قانونی آشکار کنند اما این ردیاب ها نمی توانند اصلا کلاهبرداری را شناسایی کنند.



- دسته بندی داده ها فورا در دسترس نمی باشد. معمولا کلاهبرداری و نفوذ بعد از اینکه روی می دهند شناسایی می گردد.



- ردیابی رفتار کاربر مشکل می باشد. تمام کاربران ( کاربران خوب، کسب و کار، متقلبان) اغلب رفتار خود را تغییر می دهند. کشف الگوهای متغیر و جدید دارای اهمیت یکسانی با تشخیص الگوهای قدیمی می باشد.



در این پژوهش، دو الگوریتم خوشه بندی جدید را برای شناسایی کلاهبرداری و شناسایی نفوذ در شبکه مطرح می کنیم: شبکه آموزشی رقابتی پیشرفته (ICLN)، و شبکه آموزشی رقابتی پیشرفته نظارتی (SICLN). شبکه آموزشی رقابتی پیشرفته (ICLN)، الگوریتم خوشه بندی غیرنظارتی می باشد که از شبکه آموزش رقابتی استاندارد (SCLN) ایجاد شده است. شبکه آموزش رقابتی استاندارد (SCLN) الگوریتم خوشه بندی نظارتی می باشد که از شبکه آموزشی رقابتی پیشرفته (ICLN) حاصل می گردد. هدف ما توسعه تکنیک های اموزش ماشینی پیشرفته می باشد تا چالش های عملی در زمینه شناسایی نفوذ در شبکه و شناسایی کلاهبرداری حل شود.



شکل 1 نمونه ای از فرایند کلاهبرداری می باشد. اگر اطلاعات کارت اعتباری دارنده ان دزدیده شود و برای خرید انلاین مورد استفاده قرار گیرد، چند روز طول می کشد که تراکنش بر روی صورت وضعیت کارت اعتباری آشکار شده، و چند روز و چند ماه برای دارنده اصلی کارت به طول می انجامد تا اطلاع پیدا کرده و ان را به بانک گزارش دهد. همچنین چند روز برای بانک طول می کشد تا به شرکت خرده فروش اطلاع دهد.



ص 2





شکل 1. روند گزارش کلاهبرداری







شکل 2. نتایج خوشه بندی طبیعی در برابر نتایج مطلوب. a) خوشه بندی غیرنظارتی زمانی که دسته بندی های واحد داده ناشناخته و غیرقابل استفاده می باشند. b) خوشه بندی مطلوب زمانی که دسته بندی واحد داده شناخته شده می باشد.



معمولا سفارش ها قبل از اینکه به عنوان کلاهبرداری گزارش شوند، مد نظر قرار می گیرند. ان ها زمانی به عنوان کلاه برداری مد نظر قرار می گیرند که شرکت گزارش تقلب را دریافت کند. فاصله زمانی از تاریخ سفارش تا تاریخ گزارش کلاهبرداری منجر به داده های بدون دسته بندی می گردد. داده های دسته بندی نشده به معرفی پارازیت هایی به بخش های نظارتی می پردازند. انتظار برای چند ماه تا زمانی که اکثر گزارش های مربوط به کلاهبرداری تکمیل گردند، این پارازیت های غیردسته بندی شده را کاهش می دهد، اما تلفاتی به وقوع پیوسته و الگو ها زمانی که کشف شدند تغییر می یابند.



توانایی آموزش از داده های بدون دسته بندی و ارتباط با داده های غیرعادی، خوشه بندی را به عنوان کاندیدای مناسبی برای شناسایی نفوذ در شبکه و شناسایی کلاهبرداری می سازد. به هر حال از طرف دیگر، الگوریتم خوشه بندی خوشه های مناسبی را بدون اطلاعات اضافی ایجاد نمی کند. شکل 2 نمونه ای از ان می باشد. نتایج خوشه بندی که در شکل 2(a) توضیح داده شده است از نطر آموزش های غیرنظارتی کامل می باشد. واحدهای داده به خوشه هایی بر مبنای شباهت طبیعی شان گروه بندی می گردند. به هر حال نتایج خوشه بندی مطلوب واقعی منتهی به شکل 2 (b) می گردد در صورتی که از دسته بندی های داده آگاهی داشته باشیم. با مدیریت تمام یا بخشی از دسته بندی های داده، الگوریتم خوشه بندی می تواند نتایج مطلوبی را بدست اورد. بر مبنای پتانسیلی برای ادغام توان دسته بندی و خوشه بندی، تکنیک خوشه بندی نظارتی برای پزوهش ما اعمال می گردد.



2. پیشینه



تکنیک های مربوط به شناسایی کلاهبرداری و تشخیص نفوذ به دو دسته تقسیم می شوند. تکنیک های آماری و تکنیک های داده کاوی. روش های سنتی شناسایی نفوذ شبکه بر مبنای الگوی ذخیره شده رویدادهای شناخته شده می باشد. آن ها به تشخیص نفوذ شبکه با مقایسه مشخصه های فعالیت ها با الگوی حملات که توسط متخصصان انسانی ایجاد شده، می پردازند. یکی از موانع اصلی روش های سنتی این می باشد که ان ها نمی توانند نفوذهای ناشناخته را آشکار کنند. علاوه بر این، تحلیل های انسانی زمانی ناکارآمد می باشند که حجم فعالیت ها به سرعت افزایش یابد. این موارد منجر به تکنیک های داده کاوی برای شناسایی کلاه برداری  و تشخیص نفوذ در شبکه می گردد.



داده کاوی بر مبنای تکنیک های تشخیص نفوذ در شبکه می تواند در دسته بندی تشخیص سوء استفاده و تشخیص ناهنجاری قرار گیرد. تکنیک های تشخیص سوء استفاده، الگوهای حملات را توسط آموزش های نظارتی از داده های دسته بندی زده شده ایجاد می کنند. مانع اصلی در تکنیک های تشخیص سوء استفاده این می باشد که ان ها نمی توانند حملاتی را آشکار کنند که هرگز در داده های آموزشی رخ نداد اند. از طرف دیگر، تکنیک های تشخیص ناهنجاری الگوهای کاربردی استاندارد را ایجاد می کنند. ان ها می توانند به شناسایی نفوذهای غیرقابل مشاهده با بررسی انحراف از الگوهای نرمال بپردازند.



شبکه های عصبی مصنوعی چندین مزیت را در تشخیص تقلب و تشخیص نفوذ به شبکه ایجاد می کنند. کاربرد تکنیک های شبکه عصبی شامل مدل های شناسایی سوء استفاده و مدل های تشخیص ناهنجاری می باشد. پرسپترون چندلایه (MLP) در بخش 13 برای شناسایی ناهنجاری مورد استفاده قرار گرفته است. شبکه عصبی با لایه پنهانی مجزا در داده های سازمان پروژه های پژوهشی پیشرفته دفاع سال 1998 بکار گرفته و آزمایش شد. پرسپترون چندلایه (MLP)  در بخش 22 بکار گرفته شد. الگوریتم پس- انتشار در فاز آموزشی بکار گرفته شد تا سازگار با وزن شبکه عصبی شود. به عنوان شبکه عصبی غیرنظارتی، طرح های خودسازمانی (SOM) در شناسایی ناهنچاری ها بکار گرفته شد. این طرح به طور مفهومی برای آشکارسازی فعالیت شبکه های منحرف با مشخص کردن رفتارهای نرمال اماده شد. طرح های خودسازمانی (SOM) همچنین برای اجرای خوشه بندی ترافیک شبکه و شناسایی حملات بکار گرفته شد. طرح های خودسازمانی (SOM) برای اموزش مشخصات فعالیت های معمول طراحی شد. تغییرات از فعالیت های معمول اشاره ای به ویروس ها دارد. خوشه بندی تلفیق غیرنظارتی (UNC) ، به عنوان تکنیک تلفیق ژنتیک برای خوشه بندی غیرنظارتی می باشد که برای تشخیص نفوذ کاربرد دارد. هر خوشه ای که توسط UNC توسعه می یاتبد در ارتباط با تابع عضویت می باشد که شکل گاوس را دنبال می کند. با استفاده از نمونه های نرمال، UNC خوشه هایی را ایجاد می کند که خلاصه ای از فضای معمول را بیان می کند.



سیستم هوش مصنوعی هیبریدی در بخش 23 نشان داده شده است. مدل عصبی غیرنظارتی در سیستم چندعاملی برای تشخیص نفوذ در شبکه جاسازی شده است. رویکرد آموزش هیبریدی به ادغام تکنیک های آموزش و سازگار برای غلبه بر محدودیت های جداگانه می پردازد.



ص 3

ترکیب توان دو یا چند رویکرد منجر به بازدهی بالا می گردد. مدل هیبریدی SOM  و MLP  در بخش 5 مطرح شده است. MLP با شبکه های پرسپترون چندلایه دغام می شود تا حملات پراکنده و ترکیبی را آشکار کند.



روش های سنتی شناسایی کلاهبرداری با مشکل مشابهی همانند روش های سنتی شناسایی نفوذ در شبکه مواجه می باشد. تحلیل تشخیص کلاهبرداری توسط متخصصان در زمینه تقلب از طریق مقایسه فعالیت های کلاهبرداری با تراکنش های معمول انجام می گیرد. تجزیه و تحلیل انسانی زمانی که حجم تراکنش ها به سرعت بالا می رود، ناکارآمد می گردد. علاوه بر این شناسایی کلاهبرداری سنتی برای الگوهای جدید و در حال تغییر قابل قبول نمی باشد. تشخیص کلاهبرداری بر مکبنای داده کاوی همچنین به تشخیص سوء استفاده و تشخیص ناهنجاری  دسته بندی می گردد. ابزارهای داده کاوی تجاری زیادی در دسترس می باشند. ابزارهای تجاری زیر در سطح بالا می باشند: تحلیل گر شرکت SAS، کلمنتاین SPSS، و تحلیل گر هوشمند IBM DB2، این تجهیزات تجاری می تواند برای کشف الگوها در داده بطور موثری بکار رود. تحقیقات گزارش شده کمتری در زمینه شناسسایی کلاهبرداری نسبت به شناسایی نفوذ در شبکه با وجود شباهت آن ها وجود دارد. دلیل این می باشد که معمولا داده های مالی در ممعرض عموم همانند داده های KDD99 برای تشخیص نفوذ در شبکه، قرار نمی گیرند و دسترسی به ان ها نیز مشکل می باشد. درخت تصمیم در بخش 6 برای شناسایی کلاهبرداری مورد استفاده قرار می گیرد. این روش مجموعه داده ها بزرگ تراکنش های دسته بندی شده را به زیرمجموعه های کوچکتری تقسیم می کند. سپس از درخت تصمیم برای دسته بندی موازی استفاده کرده و سپس به ادغام مدل مبنای برایند از طریق فرا دسترسی از رفتار کلاسیفایر برای ایجاد طبقه بندی متا می پردازد. بروس و همکارانش به ادغام شبکه تابع پایه شعاعی و اطلاعات مبتنی بر قاعده برای شناسایی کلاهبرداری کارت اعتباری پرداختند.



3. شبکه آموزش رقابتی پیشرفته



ICLN حاصل از توسعه SCLN می باشد. آن بر کاستی های بی ثباتی در SCLN غلبه کرده و سریعتر از SCLN  همگرا می شود. بنابراین عملکرد بهتری را از نظر زمان محاسبه خواهد داشت.



3.1 محدودیت SCLN



SCLN متشکل از دو لایه نورون می باشد: لایه اندازه گیری فاصله و لایه رقابتی. ساختار SCLN در شکل 3 نشان داده شده است. لایه اندازه گیری مسافت شامل بردار وزنی m می باشد. . زمانی که نمونه آموزشی ارائه می گردد، لایه اندازه گیری مسافت به محاسبه فاصله بین بردار وزنی و نمونه آموزشی می پردازد. فواصل محاسبه شده در اندازه گیری مسافت به عنوان توان ورودی لایه رقابتی می باشد. لایه رقابتی نزدیک ترین بردار وزنی از نمونه اموزشی را مد نظر قرار می دهد. خروجی لایه رقابتی به صورت بردار  می باشد. هر بیت از بردار خروجی به صورت 0 یا 1 می باشد، که نشان دهنده نتایج وزنی بردار رقابتی می باشد. برای نمونه، اگر نورون  رقابت را ببرد، خروجی به صورت بردار با  و  می شود. بردار وزنی wj برنده، سپس دارای مزیت نزدیک تر بودن به نمونه آموزشی می گردد. بردارهای وزنی بازنده دیگر بدون تغییر باقی می مانند. این فرایند برای تمام نمونه های آموزشی برای از سرگیری مستمر تکرا می گردد. در نهایت هر یک از بردارهای وزنی در مرکز خوشه تقارب پیدا می کنند.





شکل 3. SCLN متشکل از دو لایه نورون می باشد: لایه اندازه گیری مسافت و لایه رقابتی



قوانین بروزرسانی شده SCLN به نام " برنده مالک تمام موارد" می باشد. معنای آن اینست که نورون برنده زمانی خودش را بروز می کند که نمونه آموزشی ارائه شده باشد. نورون برنده زمانی که رقابت را برد، خودش را برای نزدیک تر شدن به نمونه آموزشی نزدیک تر می کند. بروزرسانی توسط قوانین آمورشی رقابتی استاندارد محاسبه می شود.





که در این فرمول wj به عنوان بردار وزنی نورون برنده j می باشد، و z نسبت آموزش است. تنها نورون برنده در هر زمان خودش را بروزرسانی می کند. اساس آموزش رقابتی در شکل 4 توضیح داده شده است.



عملکرد SCLN  اتکایی بر روی تعداد اولیه نورون ها و ارزش بردار وزنی ان ها دارد. زمانی که تعداد نورون های خروجی مشخص شد، تعداد خوشه ها نیز با توجه به توزیع داده از پیش تعیین می گردد. از طرف دیگر، بردارهای وزنی اولیه مختلف منجر به تعداد متفاوتی از بردارهایی می گردد که منتهی به تعداد متفاوتی از خوشه های نهایی نورون های برنده به سمت نمونه های نزدیک محلی می گردد. شکل 5 سناریویی را نشان می دهد که محدودیت SCLN  را آشکار می سازد. در این نمونه، دو نورون نزدیک به یک خوشه مقداردهی می گردند. هر دو آن ها در نتایج خوشه بندی قرار می گیرند زیرا SCLN  به عنوان الگوریتم جبرانی می باشد. نتیجه خوشه بندی SCLN از این نمونه به صورت چهار خوشه می باشد اگرچه تنها سه خوشه بر مبنای پیش بینی در شکل 5 (b) نشان داده شده است.







شکل 4. اصول SCLN. A) بردار وزنی اولیه b) نتایج خوشه بندی







شکل 5. موانع SCLN . بردار وزنی اولیه. a) عملکردSCLN  به شدت بستگی به تعداد نورون های اولیه و بردارهای وزنی اولیه شان دارد. b) نتیجه خوشه بندی. خوشه پایینی سمت چپ به دو گروه تقسیم می شود زیرا دو بردار وزنی نزدیک به یک خوشه قرار می گیرد.



 



3.2 قوانین بروزرسانی جدید در ICLN



تغییرات ICLN قوانین مربوط به مزایا را به قواتنین مربوط به مضرات تغییر می دهد. نورون های برنده بردار وزنی را توسط قوانین بروزرسانی مشابه در معادله 1 بروز می کنند. این فرایند بروزرسانی که به نام پاداش نورون برنده می باشد در مسیر نمونه های آموزشی بروز می گردد. در عین حال، نورون های دیگر همچنین بردار وزنی شان را توسط





بروز می سازند که  به عنوان تابع کرنل می باشد که d(xj) به عنوان فاصله بین نورون j و ورودی x بوده، و نسبت اموزش می باشد. این فرایند بروزرسانی به نام تنبیه می باشد زمانی که نورون ها به روزرسانی می گردند تا از نمونه های آموزشی فاصله بگیرند. انتخاب های مختلفی از تابع هدف  همانند فواصل معکوس، کرنل سه گوش، کرنل درجه دوم، و کرنل گاوس وجود دارد. تابع کرنل مقدار بیشینه را در فاصله صفر کسب می کند، و تفکیک مقادیر بر مبنای فاصله افزایش می یابد. تابع کرنل خوب، باعث هموار کردن و تنظیم مقادیر بروزرسانی می شود.



تاثیر قوانین یبروزرسانی تنبیه و پاداش در شکل 6 نشان داده شده است. دو بردار وزنی در پایین سمت چپ شکل 5 در برابر یکدیگر قرار می گیرند زمانی که ICLN اعمال می گردد. قوانین تنبیه بردارهای وزنی بازنده را دورتر از خوشه برده و یکی از آن ها در نهایت از خوشه حذف می گردد. علاوه بر این چون فاصله بین نمونه آموزشی و تمام بردارهای وزنی همیشه برای رقابت محاسبه می شوند، استفاده از این مقادیر برای امال قوانین تنبیه برای بردارهای وزنی از دست رفته باعث شتاب بخشیدن به فرایند بدون محاسبه اضافی می گردد.



3.3 الگوریتم ICLN



الگوریتم ICLN در شکل 7 نشان داده شده است. ICLN در ابتدا نورون های K را فعال می کند. دو روش می تواند برای مقداردهی اولیه مورد استفاده قرار گیرد. یکی از آن ها تعیین نورون های K با نمونه اموزشی تصادفی K می باشد. مورد دیگر عیین نقطه مرکزی می باشد، یعنی میانگین تمام داده های آموزشی برای تمام نورون های K. مقدار دهی اولیه نقطه مرکزی تکرار بیشتری را برای پوشش نسبت به تکرارهای تصادفی  انجام می دهد. تعداد خوشه های K معمولا بر مبنای تعداد بیشتری از تعداد خوشه های پیش بینی شده می باشد زیرا ICLN می تواند تعداد خوشه ها را کاهش داده اما نمی تواند خوشه های جدید را به شبکه اضافه کند.





شکل 6. تاثیر قوانی بروزرسانی  ICLN



ورودی :  پایگاه داده ورودی



خروجی:  بردارهای وزنی



آغاز



1. آغاز تصادفی بردارهای وزنی



2. تنظیم نسبت اموزش  و  به ترتیب برای نورون های برنده و نورون های بازنده،



3. تنظیم حداقل مقدار بروزرسانی وزنی Ta



4. انتخاب تابع کرنل



5. تنظیم حداکثر تعداد تکرار





شکل 7. الگوریتم شبکه اموزشی رقابتی پیشرفته



ص 5



ICLN بردار وزنی اولیه  را توسط ارائه نمونه آموزش تصادفی  مد نظر قرار می دهد. زمانی که نمونه آموزشی x برای ICLN ارائه می گردد، بردارهای وزنی از طریق مقایسه فاصله همانند فاصله اقلیدسی تا x با یکدیگر رقابت می کنند. تنها یک بردار وزنی با حداقل فاصله تا x این رقابت را می برد.





سپس بردار وزنی برنده توسط تابع پاداش همان طور که در معادله 1 نشان داده شده است بروز می گردد. در عین حال، بردارهای وزنی دیگر در شبکه توسط تابع تنبیه همان طور که در معادله 2 نشان داده شده است بروز می گردند. نتیجه این قواعد تنبیه و پاداش این می باشد که نورون های برنده بروزرسانی می گردند تا به نمونه های آموزشی نزدیک تر شده و نورون های دیگر جدا از نمونه های آموزشی بروز می گردند.



بعد از اینکه شبکه آموزش را از X به پایان رساند، نمونه آموزشی دیگری به شبکه ارائه می گردد. سپس شبکه به رقابت و آموزش از این نمونه آموزشی جدید می پردازد. ICLN به تکرار فرایند آموزش می پردازد تا زمانی که یکی از معیارهای توقف حاصل گردد. یک معیار این می باشد که بروزرسانی حداکثری برای بردار وزنی W کمتر از حد بروزرسانی حداقل کنونی می باشد.





که در این فرمول wi(r) به عنوان بردار وزنی wi در تکرار کنونی بوده، به عنوان بردار وزنی در تکرار قبلی بوده، و  به عنوان آستانه بروزرسانی حداقل کنونی می باشد. معیار دیگر این می باشد که باعث اتمام حداکثر تعداد جاری تکرارها می گردد.



شبکه آموزش رقابتی پیشرفته نظارتی



SICLN به عنواتن الگوریتم خوشه بندی نظارتی حاصل از ICLN می باشد. زمانی که دسته بندی داده موجود می باشد، SICLN از آن ها استفاده می کند تا رویه خوشه بندی را مد نظر قرار دهد.



4.1 تابع هدف



SICLN از تابع هدف Obj(X,W) برای اندازه گیری کیفیت نتایج خوشه بندی استفاده می کند. قصد تابع هدف به حداقل رساندن ناخالصی خوشه های حاصل شده و نگه داشتن حداقل تعداد خوشه ها می باشد.





که در این فرمول a و b به ترتیب وزن ناخالص و پراکنش می باشند، و داریم



ناخالصی کل نتایج بر مبنای میانگین وزنی ناخالص هر خوشه می باشد:





که در این فرمول n بر مبنای شمارش مجموعه داده X و  تعداد اعضای خوشه W می باشد. یکی از انتخاب های معمول تابع ناخالص، میزان دسته بندی غیرصحیح می باشد. اگر خوشه شامل اعضایی باشد که بر مبنای دسته طبقه بندی می شوند، دسته بندی ناصحیح نسبت خوشه بر مبنای درصد اعضایی می باشد که به عنوان دسته برتر مد نظر قرار نمی گیرند. دسته غالب خوشه بر مبنای پربسامدترین دسته از خوشه می باشد. برای مجموعه داده  که بر مبنای دسته  طبقه بندی می شود، cj به عنوان دسته غالب از wi می باشد اگر تعداد اعضای wi متعلق به دسته cj بیش از تعدادی باشد که متعلق به هر دسته دیگر می باشد.





که در این فرمول  نماینده تعداد می باشد. همچنین دسته غالب دوم  به عنوان دسته ای می باشد که دارای اعضای بیشتری نسبت به دسته های دیگر بجز دسته غالب می باشد. نسبت دسته بندی نادرست خوشه بردار وزنی wi به صورت زیر محاسبه می شود





که در این فرمول  به عنوان شمارش اعضای wi می باشد.



زمانی که نسبت دسته بندی نادرست بر مبنای تابع ناخالص انتخاب می گردد، بر طبق به معادله 6 و 7، ناخالصی به صورت زیر محاسبه می گردد





پیشنهاد دیگر مربوط به نسبت دسته بندی نادرست، اندازه گیری ناخالصی GINI می باشد. ارزیابی ناخالصی GINI ابتدائا در درخت رگرسیون و طبقه بندی مورد استفاده قرار می گیرد و در سطح گسترده ای برای تعیین خالص وبودن انشعاب ها در درخت تصمیم مورد استفاده قرار می گیرد. GINI بردار وزنی wi به صورت زیر محاسبه می شود





که در این فرمول cj بهعنوان دسته ای از اعضای  از  بوده و  به عنوان اندازه wi می باشد. GINI کوچکتر نشان دهنده ناخالصی کمتر می باشد. ارزش GINI به حداکثر می رسد اگر اعضا بر مبنای جمعیت مشابهی در هر دسته باشند. در مقایسه، مقدار GINI برابر با صفر می باشد اگر تمام اعضا متعلق به یک دسته باشند. زمانی که GINI انتخاب می شود، بر طبق به معادله 6 و 9، این خالصی به صورت زیر محاسبه می شود.





بخش دوم تابع هدف بر اساس پراکنش می باشد. انتخاب ساده تابع پراکنش بر مبنای مقایسه تعداد خوشه ها و تعداد نقاط داده می باشد.





که در این فرمول t نشان دهنده تعداد دسته های مجموعه داده X می باشد، n تعداد نقاط داده ، و i تعداد خوشه ها می باشد. پراکنش بیشتر نشان دهنده خوشه بندی گسترده تر می باشد. زمانی که تعداد خوشه ها برابر با تعداد نقاط داده باشد، این پراکنش به حداکثر میزان می رسد. اگر تعداد خوشه ها برابر با تعداد دسته ها باشد، پراکندگی 0 می باشد. گزینه دیگر استفاده از اندازه هر خوشه می باشد.





پراکندگی زمانی بزرگتر می باشد که واریانس اندازه خوشه ها بزرگتر باشد. حذف خوشه های اندازه کوچک این تابع خوشه بندی را به حداقل می رساند.



به منظور شناسایی کلاهبرداری و تشخیص نفوذ، از تابع دسته بندی نادرست به عنوان تابع ناخالص استفاده می کنیم زیرا تنظیم ان برای اهداف کسب و کار آسان می باشد. ما از تابع پراکندگی اول استفاده می کنیم زیرا انتخاب های دیگر به قصد حذف خوشه هایی با اندازه کوچک می باشد که تقلب و نفوذ معمولا در خوشه هایی با اندازه کوچک می باشند. با ترکیب معادلات 5، 8 و 11، تابع هدف زیر برای ارزیابی کیفیت نتایج خوشه بندی انتخاب می گردد.





ص 6



که در این فرمول a وزن ناخالصی بوده، و b وزن پراکندگی می باشد. Obj(X,W) کوچکتر نتایج خوشه بندی بهتری را نشان می دهد. به حداقل رسانی Obj(X,W) بهترین نتیجه را بدست می دهد. معنای آن اینست تا ناخالصی و پراکندکی را کاهش دهد. به هر حال معمولا ناخالصی و پراکندگی در تضاد با یکدیگر می باشند. کاهش هر یک از آن ها منجر به افزایش دیگری می شود.



4.2 الگوریتم SICLN



SICLN در شکل 8 نشان داده شده است. آن در ابتدا به مقداردهی نورون های k می پردازد. روش قالب بندی SICLN مشابه موارد ICLN می باشد. آن دارای چنان اهمیتی نمی باشد زیرا شبکه در آموزش بازسازی می گردد.



SICLN همچنین باعث دسته بندی بردارهای وزنی با نقاط داده اعضا می گردد. در SICLN ، بردار وزنی بر مبنای دسته هایی با بزرگترین جمعیت از اعضای خوشه طبقه بندی می گردد. اگر تمام اعضا به صورت ناشناخته باشد، این بردار وزنی ناشناخته می ماند. شکل 9 توضیح می دهد که چگونه بردارهای وزنی اولیه طبقه بندی می گردد. w1 و w5 به صورت سیاه نشان داده می شود زیرا اعضای نقاط سیاه بیشتر از اعضای نقاط خاکستری می باشند.  و به صورت خاکستری نشان داده می شوند، زیرا نقاط خاکستری اعضای آن ها بیشتر از نقاط سیاه می باشند. به صورت اشناخته می باشند زیرا تمام اعضای آن به عنوان اعضای از دست رفته هستند.  به صورت ناشناخته می باشد زیرا دارای هیچ عضو داده نمی باشد.



مراحل آموزشی SICLN  نسخه اصلاح شده ICLN می باشد. نورون های خروجی برای فعال شدن رقابت می کنند. از ان جایی که دسته بندی ها موجود می باشند، SICLN از این دسته بندی ها برای بروزرسانی بردارهای وزنی استفاده می کند. در قانون جدید، تنها نورون های با دسته های مشابه با دسته یکسان به عنوان نمونه آموزشی یا ناشناخته حق رقابت برای برد دارند. نورون هایی که بر مبنای دسته های متفاوت دسته بندی زده می شوند، بازنده می باشند. زمانی که نورون رقابتی را برد، بردار وزنی آن توسط قوانین بروزرسانی مشابه معادله 1 در ICLN  مد نظر قرار می گیرد.







شکل 8. طرح الگوریتم: شبکه اموزشی رقابتی پیشرفته نظارتی





شکل 9. SICLN به دسته بندی بردارهای وزنی با نقاط داده اعضایش می پردازد.





شکل 10. فرایند بازسازی SICLN.



در  SICLN، زمانی که نمونه آموزشی دسته بندی شده در شبکه نشان داده می شود، تنها نورون هایی با دسته مشابه یا دسته های ناشناخته قادر به برنده شدن برای گرفتن مزایا می باشند. به هر حال، زمانی که نمونه اموزشی دسته بندی نشده برای شبکه ارائه می گردد، تمام نورون ها در شبکه دارای توانایی رقابت به منظور دریافت پاداش و تنبه می باشند. در این مورد، مراحل اموزشی SICLN همانند ICLN یکسان می باشد. اگر تمام نمونه های آموزشی در مجموعه داده بدون دسته بندی باشند، تمام داده های متوالی و بردارهای وزنی به طبقه ناشناخته ای تعلق دارند. در این نقطه، SICLN تبدیل به ICLN می گردد.



بعد از مرحله اموزشی، SICLN به بازسازی شبکه جدیدی بر مبنای شبکه اموزش می پردازد. در مرحله بازسازی، نوون در صورتی که شامل اعضای زیادی متعلق به دسته های دیگر باشد، به دو نورون جدید تقسیم می شود. از طرف دیگر، دو نورون همجوار به یک نورون در هم آمیخته می شوند شکل 10 مرحله بازسازی SICLN را نشان می دهد.



فرایند تقسیم از خوشه هایی با مقدار ناخالصی حداکثر آغاز می گردد. تخمین بعد از تفکیک ناخالصی بین  ناخالصی های تفکیک شده و بهترین ناخالصی احتمال می باشد. برای نمونه، اگر بردار وزنی ws به دو بردار  و  تقسیم شود، ناخالصی بعد از تفکیک عبارتست از





ص 7



بهترین ناخالصی احتمالی عبارتست از





 مقدار براورد شدن ناخالصی بعد از تفکیک عبارتست از





که در این فرمول y فاکتور برآورد  می باشد. مقدار پراکندگی بعد از تقسیم به صورت زیر می باشد





مقدار تابع هدف براورد شده عبارتست از





اگر ارزش عینی برآورد کمتر از ارزش عینی پیش از تقسیم باشد، بردار وزنی به دو دسته تقسیم می شود. نقطه میانی اعضای غالب و نقطه میانی اعضای دسته غالب دوم نورون برای تبدیل به نورون جدید انتخاب می شوند.



فرایند ادغام به دنبال بردار وزنی مشابهی بر مبنای کاندید می باشد. برای یافتن دو بردار وزنی که به یکدیگر نسبت به بردارهای وزنی دیگر نزدیک می باشند، از فواصل همجوار متقابل استفاده می کنیم. فاصله همجوار متقابل عبارتست از





که در این فرمول  تعدا نورون های همجوار wj با توجه به نورون wi می باشد. اگر  و  باشد، w1 و w2 به یکدیگر  نسبت به بردارهای وزنی دیگر نزدیک تر می باشند.  و  در صورتی که شرایط زیر را برآورده سازند، ادغام می گردند. 1)  2)  3) .  نورون های جدید دارای میانگین wi و wj به عنوان بردار وزنی می باشد.



مرحله بازسازی شبکه های جدیدی را با تقسیم و ادغام بردارهای وزنی ایجاد می کند، که توسط تابع هدف تحریک می گردند. این شبکه جدید جایگزین شبکه قدیمی می شود تا مراحل اموزش ادامه یابد. این اموزش- تکرار بازسازی شده- تکرا می گردد تا زمانی که یکی از معیارهای توقف زیر براورده گردد: 1) ارزش تابع هدف آستانه حداقلی را براورده می سازد؛ 2) آموزش به تعداد حداکثر تکرار می رسد.



4.3 SiCLN در برابر iCLN



در حالی که ICLN دارای قابلیت خوشه بندی داده در گروه های طبیعی می باشد، SICLN از دسته بندی هایی برای مدیریت فرایند خوشه بندی استفاده می کند. ICLN به گروه بندی داده به خوشه هایی از طریق گرداوری نقاط داده نزدیک تر به گروه مشابه می پردازد. به عنوان یک الگوریتم خوشه بندی نظارتی، SICLN ناخالصی گروه و تعداد گروه ها را به حداقل می رساند.



شکل 11 پیشرفت را از ICLN به SICLN نشان می دهد. نتیجه ICLN در شکل 11 (a) نشان داده شده است. داده ها در گروه های طبیعی بدون مد نظر قرار دادن دسته بندی داده شناسایی می گردند. بردار وزنی w2 و w3 به عنوان مرکز خوشه دو گروه از داده در سمت چپ بوده اگرچه هر دو گروه متعلق به دسته یکسانی می باشند. از طرف دیگر، بردار وزنی w4 نشان دهنده گروه داده سمت راست بالا می باشد که حاوی داده ها در دو طبقه می باشد. نتیجه SICLN که برای داده های مشابه اعمال می گردد در شکل 11(b) نشان داده شده است. بردار وزنی w4 به wbزو wc تقسیم می شود، که نشان دهنده مرکز دو دسته از داده با دسته های متفاوت می باشد. بنابراین خالصی نتایج خوشه بندی بیشتر از ICLN می باشد. در عین حال، SICLN تلاش می کند تا منجر به خوشه های کمتری گردد در حالی که سطح خلوص را مشابه نگه می دارد. بردار وزنی x2 و w3 به wa ادغام می گردند. بردار وزنی جدید wa به عنوان گروه داده مرکزی  می باشد، که متعلق به دسته مشابهی می باشد.



 



شکل 11.  ICLN در برابر SICLN : a) ICLN: داده خوشه بندی در گروه های طبیعی. داده های با دسته مشابه در پایین سمت چپ بر مبنای دسته هایی در دو گروه می باشند که توسط بردار وزنی w2 و w3  نشان داده شده است. داده هایی با دسته های مختلف در میانه به یک گروه خوشه بندی می گردند که توسط بردار وزنی w4 نشان داده می شود. SICLN: بهینه سازی خالصی خوشه ها و تعداد خوشه ها. بردار وزنی w4 در a) به wb و wc تقسیم می شود تا خالصی خوشه بندی را به حداکثر برساند. بردار وزنی w2 و w3 در wa ادغام می گردند  تا تعداد خوشه ها را به حداقل برسانند.



5. مقایسه آزمایشی



در این بخش، به مقایسه عملکرد SICLN و ICLN با میانگین k و SOM در سه مجموعه داده می پردازیم: داده Iris، داده KDD 1999، و داده تراکنش وستا



5.1 معیارهای ارزیابی



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



این سه معیار درصد پیش بینی های صحیح را نشان می دهد. به هر حال هیچ کدام از آن ها نمی توانند عملکرد الگوریتم را نشان دهند. صحت بالا نمی تواند نشان دهنده نتایج بهتر باشد زیرا هزینه پیش بینی نادرست داده های مثبت و داده های منفی معمولا متفاوت می باشد. نتایج صحت بالا ممکن است فراخوانی کمی داشته باشد. فراخوانی بالا ممکن است نتیجه خوبی را نشان ندهد که به این دلیل می باشد که فراخوانی به آسانی با کاهش دت بالا می رود. نتایج دقت بالا همراه با فراخوانی بسیار پایینی می باشد. منحنی ROC طرح گرافیکی از TP در برابر نسبت FP بر مبنای آستانه تغییرات طبقه بندی می باشد. ان به شرح سبک سنگین کردن بین نسبت TP و نسبت FP می پردازد.



5.2 داده مربوط به آیریس



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



برای آزمایش توانایی SICLN برای ارتباط با داده های از دست رفته، ما بعضی از دسته بندی ها را تحت پوشش قرار می دهیم. ما به طور تصادفی 100%، 70%، 50%، 30% و 20% از دسته ها را در پایگاه داده آیریس مد نظر قرار داده و SICLN  را بر روی آن ها اعمال می کنیم. شکل 13 نتایج عملکرد را نشان می دهد. SICLN زمانی که 100% از دسته ها از دست می روند به ICLN تبدیل می گردد. نتیجه دقیقا مشابه ICLN می باشد. عملکرد SICLN با افزایش لدسته بندی های موجود بیشتر می شود. زمانی که داده های دسته بندی شده کافی برای مدیریت روش های دسته بندی وجود دارد ( کمتر از 20% دسته بندی برای داده مربوط به داده آیریس از دست رفته است)، SICLN به بالاترین عملکرد خود می رسد.



در بررسی دیگر، به آزمایش قابلیت SICLN برای تطبیق با تعداد متفاوت آغازی بردارهای وزنی می پردازیم. SICLN دارای مقدار اولیه ای از نورون های 1، 3، 5، 8، 10 و 15 می رسد. SICLN  به طور متناوب منجر به 5 خوشه می گردد.



5.3 تشخیص نفوذ در شبکه: داده KDD-99



مجموعه داده KDD-99 برای رقابت تجهیزات داده کاوی و کشف اطلاعات بین المللی سوم مورد استفاده قرار می گیرد.



شکل 12. مقایسه عملکرد داده های مربوط به آیریس



این مجموعه داده از برنامه ارزیابی شناسایی نفوذ DARPA سال 1998 بدست امده است. به اندازه 4,898,431 ارتباط ثبت  شده است، که از این ها 3,925,650 مورد حمله وجود داشته است. هر نقطه داده ارتباط شبکه می باشد، که توسط 41 مشخصه نشان داده شده است، که شامل مشخصه های اصلی ارتباطات شخصی، مشخصه محتوا که توسط اطلاعات غالب نشان داده شده است، و مشخصه ترافیک  که با استفاده از ویندوز زمانی 2-s نشان داده شده است، می باشد. هر ارتباط بر مبنای نوع معمول یا خاصی از حملات دسته بندی می گردد: که شامل، نپتون، اسمارف، آی پی سویپ، یا پشتیبانی داس می باشد. ماهیت این حملات در بخش [24,26] توضیح داده شده است. از این مجموعه داده، 501000 موارد ثبت شده در بررسی ما انتخاب شده اند. ارتباطات گلچین شده به دو مجموعه آموزشی و مجموعه آزمایشی نقسیم شدند، که به ترتیب شامل 101000 و 400000 ارتباط می باشد.



مقایسه عملکرد در شکل 14 نشان داده شده است.  بهتر از الگوریتم های دیگر در سه معیار ارزیابی می باشد. منحنی های ROC، در شکل 15 توضیح داده شده اند. این منحنی ها نشان می دهد که تمام آن ها دارای عملکرد مناسبی می باشند. علاوه بر این نتایج SICLN  نشان دهنده قابلیت ان برای تمایز طبقه جمعیتی کوچک، زمانی که ما نتایج را به سطح طبقه فردی همان طور که در جدول 1 نشان داده شده است، می باشد.



حملات نوع نپتون و آی پی سویپ تنها شامل 0.03& و 0.91% از جمعیت مجموعه داده می باشد و مشابه یکدیگر هستند.



شکل1. منحنی ROC از SICLN، میانگین K، ICLN، بر روی داده KDD-99.



جدول 1



نسبت دسته بندی نادرست بر روی طبقات فردی



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



اگرچه ارتباطات نپتون و آی پی سویپ در تمام الگوریتم ها به عنوان حمله آشکار می گردند، میانگین K، SOM، و ICLN قادر به تفکیک این دو نوع حمله از یکدیگر نمی باشد. SICLN از نظر نسبت دسته بندی به اجرای میانگین k، SOM، و ICLN می پردازد. توانایی شناخت انواع حمله راه حل ها و عملیات اتوماتیک بهتری را ایجاد می کند. همچنین جزییات خوشه بندی نشان می دهد که SICLN دارای قابلیت تشخیص خوشه هایی با جمعیت کوچکتر می باشد.



ما همچنین بعضی از دسته بندی ها را برای تست این فراییند که SICLN می تواند در ارتباط با داده های دسته بندی شده از دست رفته باشد، نشان می دهیم. نتایج نشان می دهد زمانی که تمام دسته ها از بین رفتند، SICLN به ICLN تبدیل می شود. این عملکرد زمانی به بالاترین نقطه می رسد که بیش از 70% از دسته ها موجود باشند. ما همچنین به بررسی قابلیت SICLN برای انطباق با تعداد متفاوتی از بردارهای وزنی اولیه پرداختیم. با آغاز تعداد مقدماتی 1، 5، 10، 20، و 30 نورون، SICLN به طور سازگارانه ای با 10 خوشه تقارب پیدا می کند.



5.4  شناسایی کلاهبرداری: داده های پرداخت کارت اعتباری



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



شکل 16. گردش داده مربوط به اطلاعات شرکت وستا برای شناسایی کلاهبرداری



داده های مورد استفاده در این بررسی بخشی از تراکنش پرداختی کارت اعتباری یکی از شرکای مخابراتی وستا می باشد. این مجموعه داده شامل سابقه تراکنش سه ماه از تعداد 206541 کارت اعتباری می باشد، که تعداد 204078 مورد عادی و 2463 مورد کلاهبرداری بوده است. با ادغام دانش کسب و کار، آمارهای ساده، و اندازه گیری اماری، 21 متغیر برای داده های خام انتخاب شد.



همان طور که در بخش 1 مطرح شد، داده ها در شناسایی کلاهبرداری در سطح بالایی چولگی دارند. تعداد رویدادهای خوب زیادی نسبت به رویدادهای کلاهبرداری وجود دارد. در تشخیص کلاهبرداری، نسبت فراخوانی مهمتر از صحت و دقت کل می باشد. صحت به تنهایی نمی تواند به انعکاس کیفیت الگوریتم ها  بپردازد زیرا پیش بینی می کند که تمام تراکنش ها به عنوان رویدادهای خوبی می باشند، اگرچه این مورد مشابه تشخیص کلاهبرداری نمی باشد اما دقت بالایی را شامل می گردد. در این مورد، نسبت محلی کلاهبرداری در برابر حالت نرمال حدود 1.2% می باشد. اگر حدس هر تراکنش نرمال باشد، صحت می تواند 98.8% باشد. به هر حال هدف ما اینست تا جایی که امکان دارد، کلابرداری ها را شناسایی کنیم، در حالی که حفظ نرخ مثبت اشتباه را در سطح قابل قبول مشخصی نگه می داریم جدول 2 نتایج آزمایشی را در مورد داده های شرکت وستا نشان می دهد. نرخ فراخوانی SICLN حدود 20% بیشتر از موارد دیگر می باشد. منحنی ROC در این مورد ابزار بهتری برای قیاس عملیاتی می باشد. شکل 17، بهود SICLN را با مقایسه منحنی های ROC از SICLN، میانگین K، SOM، و ICLN نشان می دهد.



5.5 بحث



اندازه کوچک و ابعاد کم داده های مربوط به آیریس این امکان را ایجاد می کند تا فرایند آموزشی قابل مشاهده ای از الگوریتم ها را ایجاد کنیم. داده KDD-99 و داده وستا به تست مقیاس پذیری الگوریتم و قابلیت ارتباط با داده های واقعی می پردازد.



SICLN به اجرای الگوریتم های دیگر بر روی تمام این سه مجموعه داده می پردازد. این پیشرفت زمانی قابل توجه می باشد که نقاط داده طبقات مختلف بسیار نزدیک باشند.



جدول 2



نتایج عملی بر روی داده های شرکت وستا



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



شکل 17. منحنی ROC از SICLN، میانگین k، SOM و ICLN.



 علاوه بر این، SICLN کاملا مستقل از تعداد اولیه خوشه های می باشد زیرا مرحال بازسازی آن قابلیت بازپروری ساختار خودش را بر مبنای دسته های داده دارد. در عین حال، قابلیت SICLN در ارتباط با داده های از دست رفته همچنین در این بررسی های اثبات می شود. عملکرد خوشه بندی SICLN زمانی بهبود می یابد که تعداد موجود دسته بندی ها افزایش یافته و به بالاترین نقطه زمانی که حدود 70% از نقاط داده دسته بندی شدند، می رسد. این مشخصه، SICLN را به عنوان کاندیدای مناسبی از الگوریتم برای شناسایی کلاهبرداری و تشخیص نفوذ در شبکه معرفی می کند، زیرا همیشه تعداد مشخصی از داده های دستخ بندی نشده و دسته بندی شده در این دامنه وجود دارد.



6. نتیجه گیری و آثار آینده



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



موارد زیر پیشرفت و بهیود در آینده را در حوزه این تحقیق نشان می دهد.



- روش تخمین بهتر برای مراحل بازسازی، بازدهی SICLN را بهتر می کند. اگر روش دقیق تری برای برآورد ارزش تابع هدف وجود داشته باشد، SICLN قادر به پوشش سریعتر نتایج نهایی می باشد.



- پیشرفت بیشتر برای جلوگیری از بهینه سازی محلی انجام می گیرد. اگرچه، مراحل بازسازی، انتخاب نسبت یادگیری، و کاربرد تنزل وزنی می تواند شانس پایان نقطه بهینه محلی را برای SICLN کاهش دهد. SICLN کنونی تضمینی را در مورد بهینه ساز محلی ایجاد نمی کند. تحقیقات بیشتر می تواند به بهبود SICLN از چنین جنبه ای منجر گردد.



- SICLN دارای پتانسیلی برای اصلاح الگوریتم اموزشی افزایشی می باشد اگرچه SICLN کنونی برای برای آموزش دسته کردن طراحی شده است. روش اموزش افزایشی باعث بهبود سیستم شناسایی کلاهبرداری یا نفوذ در شبکه می گردد که به عنوان سیستم تطبیقی اتوماتیک همراه یا بدون مقدار کمی از تعامل انسانی می باشد.



- معرفی منطق فازی به عنوان روش بهبود با پتانسیل بالا جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.


 برچسب ها: 

Improved competitive learning neural networks for network intrusion and fraud detection

شبکه های عصبی آموزشی رقابتی پیشرفته در مورد تشخیص نفوذ در شبکه و شناسایی کلاهبرداری

ISI

Paper

Papers

Article

Articles

مقاله ISI

شبکه عصبی

دانلود ISI

ترجمه مقاله

دریافت مقاله

ISI کامپیوتر

آموزش رقابتی

شناسایی نفوذ

مقاله انگلیسی

Persian Paper

خرید ترجمه ISI

Neural network

ترجمه مقاله ISI

Persian Article

Fraud detection

دانلود مقاله ISI

مقاله رایگان ISI

خرید ترجمه مقاله

دانلود ترجمه ISI

دانلود مقاله جدید

مقالات رایگان ISI

دریافت مقالات ISI

مقاله ISI با ترجمه

مقاله انگلیسی جدید

خرید ترجمه انگلیسی

فروش ترجمه انگلیسی

مقاله ISI کامپیوتر

شناسایی کلاهبرداری

دانلود مقاله انگیسی

ترجمه مقاله انگلیسی

دانلود ISI کامپیوتر

Intrusion detection

مقالات معتبر انگلیسی

ترجمه مقالات انگلیسی

دریافت مقاله انگلیسی

ترجمه مقاله کامپیوتر

Competitive learning

دانلود مقاله جدید ISI

دریافت مقاله کامپیوتر

مقاله انگلیسی با ترجمه

مقاله انگلیسی کامپیوتر

دانلود رایگان مقاله ISI

خرید ترجمه ISI کامپیوتر

Translate English Paper

دانلود مقالات رایگان ISI

ترجمه مقاله ISI کامپیوتر

دانلود مقاله ISI با ترجمه

دانلود مقاله انگلیسی جدید

دریافت مقاله انگلیسی جدید

دانلود مقاله ISI کامپیوتر

مقاله رایگان ISI کامپیوتر

خرید ترجمه مقاله کامپیوتر

دانلود ترجمه ISI کامپیوتر

Translate English Article

ترجمه مقالات معتبر انگلیسی

دانلود مقاله جدید کامپیوتر

مقالات رایگان ISI کامپیوتر

دریافت مقالات ISI کامپیوتر

Translate Paper in English

دانلود مقاله انگلیسی رایگان

دانلود رایگان مقاله انگلیسی

دانلود مقاله انگلیسی رایگان

دریافت مقاله انگلیسی رایگان

مقاله ISI با ترجمه کامپیوتر

مقاله انگلیسی جدید کامپیوتر

خرید ترجمه انگلیسی کامپیوتر

فروش ترجمه انگلیسی کامپیوتر

دانلود مقاله انگیسی کامپیوتر

ترجمه مقاله انگلیسی کامپیوتر

Translate Article in English

خوشه بندی نظارتی/ غیر نظارتی

دانلود مقاله انگلیسی با ترجمه

دریافت مقاله انگلیسی با ترجمه

مقالات معتبر انگلیسی کامپیوتر

ترجمه مقالات انگلیسی کامپیوتر

دریافت مقاله انگلیسی کامپیوتر

دانلود مقاله جدید ISI کامپیوتر

مقاله انگلیسی با ترجمه کامپیوتر

Translation of Paper in English

دانلود رایگان مقاله ISI کامپیوتر

دانلود مقالات رایگان ISI کامپیوتر

Translation of Article in English

دانلود مقاله ISI با ترجمه کامپیوتر

دانلود مقاله انگلیسی جدید کامپیوتر

دریافت مقاله انگلیسی جدید کامپیوتر

Supervised/unsupervised clustering

ترجمه مقالات معتبر انگلیسی کامپیوتر

دانلود مقاله انگلیسی رایگان کامپیوتر

دانلود رایگان مقاله انگلیسی کامپیوتر

دانلود مقاله انگلیسی رایگان کامپیوتر

دریافت مقاله انگلیسی رایگان کامپیوتر

دانلود مقاله انگلیسی با ترجمه کامپیوتر

دریافت مقاله انگلیسی با ترجمه کامپیوتر

به سوی پایگاه داده چندگانه (اشتراکی) انعطاف پذیر و مستقل
فايل پيوست

Abstract The success of cloud computing as a platform for deploying webapplications has led to a deluge of applications characterized by small data footprints with unpredictable access patterns. A scalable multitenant ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 7000 تومان

رویکردی در ارتباط با معماری خط تولید سرویسگرا
فايل پيوست

Abstract Service-Oriented Architecture (SOA) has appeared as an emergent approach for developing distributed applications as a set of self-contained and business-aligned services. SOA aids solving integration and interoperability problems and provides ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 8000 تومان

ظرفیت شبکه های بی سیم
فايل پيوست

Abstract When n identical randomly located nodes, each capable of transmitting at W bits per second and using a fixed range, form a wireless network, the throughput (formula) obtainable by each ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 17000 تومان

سیستم های صف بندی زمان گسسته با تعطیلی های انحصاری مارکوفب
فايل پيوست

Abstract In this contribution we investigate discrete-time queueing systems with vacations. A framework is constructed that allows for studying numerous different vacation systems, including a.o. classical vacation systems like the exhaustive ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 12000 تومان

طراحی و تحلیل یک مدل وقفه (تعطیلی) برای سیستم صف بندی دو فازه با خدمات ورودی
فايل پيوست

Abstract This paper mainly deals with a two phase service queueing model with gated service vacation. In this gated service vacation model, only those customers who are present in the queue ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 9000 تومان

به اشتراک گذاری طیف مشارکتی بین شبکه های تلفن همراه و اد هاک
فايل پيوست

Abstract Spectrum sharing between cellular and ad-hoc networks is studied in this work. Weak signals and strong interferences at the cell-edge area usually cause severe performance degradation. To improve the cell-edge ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 15000 تومان

مقایسه پروتکل های مسیر یابی تک مسیره در مقابل پروتکل های مسیر یابی چندگانه برای انتقال تصویر در شبکه های حسگر بی سیم چند رسانه ای
فايل پيوست

Abstract Wireless multimedia sensor network (WMSN) applications require strong multimedia communication competence. Therefore, in WMSN applications, it is necessary to use specific mechanisms in order to handle multimedia communication challenges and ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 11000 تومان

هوش کسب و کار به روش محاسبه ابری
فايل پيوست

Abstract Business Intelligence (BI) deals with integrated approaches to management support. Currently, there are constraints to BI adoption and a new era of analytic data management for business intelligence these constraints ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 8000 تومان

مدل احتمال جدید برای ضمانت کردن مشکل مسیر بحرانی با الگوریتم اکتشافی
فايل پيوست

Abstract In order to obtain an adequate description of risk aversion for insuring critical path problem, this paper develops a new class of two-stage minimum risk problems. The first-stage objective function ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 9000 تومان

فایل اکسل جامع طراحی دیوار حائل (با در نظر گرفتن نیروی زلزله)
فايل پيوست

تک فایل اکسل طراحی دیوار حائل (با در نظر گرفتن نیروی زلزله) دیوار حائل یا سازه نگهبان بنایی است که به منظور تحمل بارهای جانبی ناشی از خاکریز پشت دیوار، سازه ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 15000 تومان
 مشخصات کلی: 

گروه: اکسل طراحی

2 فایل اکسل مجزا جهت طراحی فونداسیون تجهیزات افقی، قائم و پیت (Air Separation Units, Heat Exchangers, Drums, Pits...)
فايل پيوست

2 فایل اکسل مجزا جهت طراحی فونداسیونهای تجهیزات: Air Separation Units, Heat Exchangers, Horizontal & Vertical Drums, Pits پالایشگاه ها و مجتمعهای پتروشیمی مجموعه هایی متشکل از تجهیزات گوناگون صنعتی هستند؛ تجهیزاتی ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 9500 تومان
 مشخصات کلی: 

گروه: اکسل طراحی

3 فایل اکسل مجزا جهت طراحی فونداسیون های تجهیزات دینامیک: Compressors & Pumps (reciprocating & centrifugal), Oil-Water Skid
فايل پيوست

3 فایل اکسل مجزا جهت طراحی فونداسیونهای تجهیزات دینامیک: Compressors & Pumps (reciprocating & centrifugal), Oil / Water Skid در ساخت یک مجتمع پتروشیمی تجهیزات متعددی مورد استفاده قرار می گیرد. برخی از ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 12500 تومان
 مشخصات کلی: 

گروه: اکسل طراحی

دستورالعمل جامع آشنایی با اصول طراحی سکوهای ثابت فلزی دریایی
فايل پيوست

مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 25000 تومان

دستورالعمل کاربردی و گام به گام طراحی سازه های باز بتنی (پایپ رک ها) و فونداسیون
فايل پيوست

مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 15000 تومان

دستورالعمل طراحی سازه های فولادی به روش DIRECT ANALYSIS METHOD بر اساس آئین نامه AISC با استفاده از نرم افزارهای SAP و ETABS
فايل پيوست

مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 12500 تومان

دستورالعمل طراحی فونداسیون های تجهیزات ارتعاشی (چرخشی، رفت و برگشتی)ـفارسی
فايل پيوست

مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 12500 تومان

تقویت کننده ی شبه تفاضلی کلاس-AB برمبنای اینورتر CMOS برای کاربردهای HF
فايل پيوست

 Abstract This paper presents a CMOS inverter-based c1ass-AB pseudo differential amplifier for HF applications using new sim pIe rail-to-rail CMFB circuit. The proposed circuit em ploys two CMOS inverters and the ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 5000 تومان

روش جاروب رو به عقب، برای حل پخش بار در شبکه های توزیع
فايل پيوست

Abstract A methodology for the analysis of radial or weakly meshed distribution systems supplying voltage dependent loads is here developed. The solution process is iterative and, at each step, loads are ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 8000 تومان

بازسازی سه بعدی و تشخیص چهره با استفاده از ICA مبتنی بر هسته و شبکه های عصبی
فايل پيوست

Abstract Kernel-based nonlinear characteristic extraction and classification algorithms are popular new research directions in machine learning. In this paper, we propose an improved photometric stereo scheme based on improved kernel-independent component ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 9000 تومان

ناحیه کاربری

فرمت ایمیل صحیح نمی باشد. ایمیل خود را وارد نمایید.

رمز عبور خود را وارد نمایید.

مجله اینترنتی دیتاسرا
کلیه حقوق مادی و معنوی این وبسایت متعلق به گروه نرم افزاری دیتاسرا می باشد.
ایمیل:
support.datasara[AT]gmail[دات]com

Copyright © 2019