مقایسه و بررسی روش های خوشه بندی اسناد A Comparison of Document Clustering Techniques
Abstract
This paper presents the results of an experimental study of some common document clustering techniques. In particular, we compare the two main approaches to document clustering, agglomerative hierarchical clustering and K-means. (For K-means we used a “standard” K-means algorithm and a variant of K-means, “bisecting” K-means.) Hierarchical clustering is often portrayed as the better quality clustering approach, but is limited because of its quadratic time complexity. In contrast, K-means and its variants have a time complexity which is linear in the number of documents, but are thought to produce inferior clusters. Sometimes K-means and agglomerative hierarchical approaches are combined so as to “get the best of both worlds.” However, our results indicate that the bisecting K-means technique is better than the standard K-means approach and as good or better than the hierarchical approaches that we tested for a variety of cluster evaluation metrics. We propose an explanation for these results that is based on an analysis of the specifics of the clustering algorithms and the nature of document data.
چکیده فارسی
این مقاله به بررسی نتایج حاصل از مطالعات تجربی روش های متداول خوشه بندی اسناد(داکیومنت) می پردازد. به خصوص در این مقاله، دو روش اصلی خوشه بندی داکیومنت به نام های خوشهبندی سلسله مراتبی متراکم و روش k-mean را بررسی و مقایسه می کنیم. (در روش k-means از الگوریتم استاندارد k و متغیر آن وbisecting K-means استفاده کرده ایم). خوشه بندی سلسله مراتبی اغلب به عنوان روش خوشه بندی با کیفیت بهتر به تصویر کشیده می شود، اما به دلیل پیچیدگی های زمانی کوادراتیک یا درجه دوم آن محدودیت هایی هم دارد. در مقابل، روش k-means و متغیرهای آن دارای پیچیدگی های زمانی بصورت خطی است اما خوشه های درجه دوم و پایین تری بوجود می آورد. برخی مواقع، روش سلسله مراتبی و k-means به منظور دست یابی به بهترین روش با هم ترکیب می شوند. با این حال، نتایج بدست آمده از تحقیق ما حاکی از این است که روش k-meansbisecting بهتر از استاندارد k-means است و بهتر و مناسب تر از روش سلسله مراتبی است که ما معیارهای ارزیابی خوشه را آزمایش کردیم. توضیحاتی برای این نتایج بدست آمده داریم که مبتنی بر تجزیه و تحلیل جزئییات الگوریتم خوشه بندی و ماهیت داده های داکیومنت ارائه شده است.

مشخصات
توسط: Michael Steinbach, George Karypis, Vipin Kumar مجله: Department of Computer Science and Egineering انتشارات: University of Minnesota تعداد صفحات متن اصلی: 20 تعداد صفحات متن ترجمه: 17 تاریخ درج: ۱۳۹۵/۶/۲ منبع: دیتاسرا

خرید آنلاین فایل ترجمه
عنوان: مقایسه و بررسی روش های خوشه بندی اسناد حجم: 170.82 کیلوبایت فرمت فایل: pdf قیمت: 139500 تومان رمز فایل (در صورت نیاز): www.datasara.com نرم افزارهای مورد نیاز: winrar - adobe acrobat - office
تنها با ارسال یک ایمیل وجه خود را دریافت نمایید

دانلود فایل اصلی
عنوان: A Comparison of Document Clustering Techniques


پیش زمینه و انگیزه و هدف تحقیق
خوشه بندی اسناد(داکیومنت) برای استفاده در حوزه های متعددی ازجمله معنای متن و بازیابی اطلاعات بررسی شده است. درابتدا، روش خوشه بندی اسناد(داکیومنت) در جهت بهبود دقت و یا فراخوان در سیستم های بازیابی اطلاعات [Rij79, Kow97] بررسی شد و روشی کارآمد برای این منظور مشخص گردید[BL85]. به تازگی خوشه بندی به منظور استفاده در مرور یک مجموعه ای از اسناد(داکیومنت) ارائه می شود [CKPT92] و یا در سازماندهی نتایج که بواسطه یک موتور جستجو برای کاربر مفید واقع می شود. [ZEMK97]. خوشه بندی اسناد(داکیومنت) همچنین برای تولید خودکار خوشه های سلسله مراتبی استفاده شده است [KS97]. (نسل خودکار رده بندی اسناد(داکیومنت) وب همانند موارد تولیدی یاهو (www.yahoo.com) اغلب به عنوان یک هدف ذکر شده است.). یک روش تاحدودی متفاوت هم به این صورت است که خوشه های طبیعی در رده بندی سند در حال حاضر موجود (یاهو) وجود دارد. [AGY99]. و پس از آن از این خوشه ها به منظور تولید یک رده بندی سند موثر برای اسناد(داکیومنت) جدید استفاده می شود. خوشه بندی سلسله مراتبی متراکم و روش k-means دو روش خوشه است که معمولا برای خوشه بندی سند استفاده می شود. خوشه بندی سلسله مراتبی گرچه کندتر است اما اغلب از روش k-means بهتر و کاربردی تر است. مطالعه شناخته شده گسترده ای در این زمینه وجود دارد که در [DJ88] بتفصیل بیان شده است، این مباحث نشانگر این است که خوشه بندی سلسله مراتبی نسبت به k-means ارجح تر است، گرچه باید به این نکته توجه داشته باشید که این نتایج از طریق داده های غیر داکیومنت بدست آمده است. در حوزه داکیومنت، پراکندگی / جمع آوری [CKPT92]، سیستم بازبینی داکیومنت مبتنی بر خوشه بندی با استفاده از یک روش ترکیبی که شامل هر دو روش خوشه بندی ذکر شده است انجام می گیرد.K-means روشی است که بعلت کارآمدی آن مورد استفاده قرار می گیرد و روش خوشه بندی سلسله مراتبی متراکم به دلیل کیفیت آن مورد توجه است. تحقیقات اخیر در ایجاد سلسله مراتب اسناد(داکیومنت) [LA99] استفاده از برخی از تکنیک های خوشه بندی [CKPT92] را ملزم ساخته و نتیجه این تحقیقات نشان می دهد که خوشه بندی سلسله مراتبی از روش K-means بهتر است. اگرچه این نتایج تنها در مورد یک مجموعه داده واحد کاربرد دارد و یکی ازنتایج عمده ای تحقیق ما محسوب نمی شود.
جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.
درابتدا براین باور بودیم که خوشه بندی سلسله مراتبی متراکم نسبت به خوشه بندیk-means اولویت دارد، همانطور که می دانیم در روش خوشه بندی سلسله مراتبی، به خوشههای نهایی بر اساس میزان عمومیت آنها ساختاری سلسله مراتبی، معمولا به صورت درختی نسبت داده میشود به ویژه برای ساختن سلسله مراتب اسناد(داکیومنت)، به دنبال پیدا کردن الگوریتم های خوشه بندی سلسله مراتبی جدید و بهتری بودیم. با این حال، در طول این دوره آزمایش ها دریافتیم که یک نوع ساده و کارآمد روش k-means بصورت bisectingروشی مناسبتر و سودمند تر از نوع مرسوم k-means تولید می کند و حتی در مواردی بهتر از تکنیک های خوشه بندی سلسله مراتبی عمل می کند. در این مقاله سعی کردیمتوضیح منطقی برای این رفتار پیدا کنیم.
طرح کلی مطالب اساسی این مقاله به شرح زیر است. بخش 2 بررسی مختصری از تکنیک های خوشه بندی سلسله مراتبی متراکم ارائه می دهد در حالی که بخش 3 طرح فضایی بردار برای اسناد(داکیومنت) را بررسی می کند، به ویژه جنبه های لازم برای درک خوشه بندی اسناد(داکیومنت) را بیان می کند. بخش 4 اندازه گیری های کیفیت خوشه هایی که به عنوان مبنایی برای مقایسه تکنیک های مختلف خوشه بندی اسناد(داکیومنت) مورد استفاده قرار می گیرد را ارائه می دهد و در بخش 5 جزئیات بیشتر در مورد k-means و الگوریتم k-meansbisectingارائه می دهد. بخش 6 به طور خلاصه مجموعه داده های استفاده شده در آزمایشات ما را شرح می دهد و بخش های 7 و8 نتایج تجربی بدست آمده را بیان می کنیم. بطور خاص، بخش 7 سه روش سلسله مراتبی متراکم را مقاسیه می کند. درحالیکه بخش 8 روش سلسله مراتبی k-means و bisecting K-means را بررسی و مقایسه می کند. فصل 9 هم نتایج بدست آمده را توضیح داده و در بخش 10 خلاصه ای از نتایج بدست آمده را شرح می دهیم.
تکنیک های خوشه بندی
در این بخش مروری کوتاه بر تکنیک های خوشه بندی سلسله مراتبی و جزئ بندی داریم. [DJ88, KR90].
تکنیک های سلسله مراتبی یک توالی پارتیشن های تو در تو با خوشه ای واحد و متشکل از همه چیز در خوشه بالا و تک قلو از نقاط مشخص در پایین می سازد. هر سطح متوسط به عنوان ترکیب دو خوشه از سطح پایین تربعدی (یا تقسیم یک خوشه از سطح بالاتر بعدی) مشاهده می شود. نتایج الگوریتم خوشه بندی سلسله مراتبی بطور برجسته بصورت درختی نمایش داده می شود که به این درخت سلسله مراتبی دندوگرام (dendogram) میگویند. این نمودار درختی فرآیند ادغام و خوشه متوسط را نشان می دهد. دندوگرام در سمت راست نشان می دهد که چگونه چهار نقطه(پوینت) را می توان به یک خوشه واحد ادغام کرد. در مورد خوشه بندی داکیومنت این دندوگرام یک رده بندی، یا شاخص سلسله مراتبی ایجاد می کند.
دو روش اساسی برای تولید خوشه بندی سلسله مراتبی وجود دارد:
الف) پایین به بالا (Bottom-Up) یا متراکم شونده (Agglomerative): در این روش ابتدا هر دادهها به عنوان خوشهای مجزا در نظر گرفته میشود و در طی فرایندی تکراری در هر مرحله خوشههایی که شباهت بیشتری با یکدیگر دارند ترکیب میشوند تا در نهایت یک خوشه و یا تعداد مشخصی خوشه حاصل شود.
ب) بالا به پایین (Top-Down) یا تقسیم کننده (Divisive): در این روش ابتدا تمام دادهها به عنوان یک خوشه در نظر گرفته میشوند و سپس در طی یک فرایند تکراری در هر مرحله دادههایی شباهت کمتری به هم دارند به خوشههای مجزایی شکسته میشوند و این روال تا رسیدن به خوشههایی که دارای یک عضو هستند ادامه پیدا میکند.
روش متراکم شونده بیشتر رایج است، و این روشی است که در مطالعه مان با روش k-means و متغیرهای آن مقایسه کردیم. (برای مقایسه روش های خوشه بندی سلسله مراتبی به منظور بازیابی اسناد(داکیومنت) به [EW89] رجوع شود) روش خوشه بندی سلسله مراتبی متراکم شونده سنتی به شرح زیر است:
- الگوریتم خوشه بندی متراکم شونده ساده
- محاسبه شباهت بین همه جفت خوشه ها، برای مثال، محاسبه ماتریس مشابهات که ijthشباهات میان خوشه , jthو ith را مشخص می کند.
- ادغام شبیه ترین (نزدیک ترین) دو خوشه.
- بروزرسانی ماتریس مشابهات برای منعکس کردن شباهت دو به دو بین خوشه جدید و خوشه اصلی.
- تکرار مراحل 2 و 3 تا زمانی که تنها یک خوشه مجزا باقی بماند.
در مقایسه با روش های سلسله مراتبی، تکنیک های خوشه بندی مجزاکننده یک سطح غیر تودرتو بخش های داده ها ایجاد می کند. اگر k تعداد مورد نظر خوشه باشد، سپس روش مجزاکننده به طور معمول تمام خوشه های K در یک باررا پیدا می کند. در مقابل با طرح های سنتی سلسله مراتبی قرار دارد که یک خوشه را به دو خوشه تقسیم می کند و یا اینکه دو خوشه را به یکی ادغام می سازد. البته، یک روش سلسله مراتبی را می توان برای ایجاد یک پارتیشن مسطح از خوشه K استفاده کرد و و به همین ترتیب، کاربرد مکرر از طرح مجزاکننده خوشه بندی سلسله مراتبی را فراهم می آورد. الگوریتم k-meansbisectingکه بعدا ارائه می دهیم چنین رویکرد و روشی است.
روش های مجزاکننده دیگری هم هست که البته ما در این مقاله تنها روش الگوریتم k-means را بررسی می کنیم که بطور گسترده ای در خوشه بندی اسناد(داکیومنت) کاربرد دارد. K-means مبتنی بر ایده بخش مرکزی می تواند یک خوشه را نشان دهد. به طور خاص، K-بدان معناست که ما مفهوم یک مرکز، که نقطه(پوینت) متوسط و یا متوسط از یک گروه از نقاط را استفاده می کند. توجه داشته باشید که مرکز جرم تقریبا هرگز به یک نقطه(پوینت) داده های واقعی مربوط نمی شود.
روش خوشه بندی K-ابزار اساسیآن در زیر معرفی شده اند: موارد مختلف را در بخش های بعدی بتفصیل بیان خواهیم کرد.
اساس الگوریتم k-means در مورد یافته های خوشه های k .
- نقاط K را به عنوان ثقل اولیه انتخاب کنید.
- تمام نقاط به نزدیکترین مرکز جرم اختصاص دهید.
- مرکز جرم هر یک از خوشه ها را دوباره محاسبه کنید.
- مراحل 2 و 3 را تکرار کنید تا زمانی که ثقل تغییر پیدا نکند.
مدل فضای برداری و خوشه بندی داکیومنت
بسیاری از مسائل خاص اسناد(داکیومنت) به طور کامل در متون بازیابی اطلاعات مورد بحث و بررسی قرار گرفته است[Rij79, Kow97]. ما به منظور ارائه پیش زمینه کافی برای درک خوشه بندی اسناد(داکیومنت) به طور خلاصه چند مبحث اساسی آن را بررسی خواهیم کرد.
اسناد(داکیومنت) الگوریتم های خوشه بندی با استفاده از مدل فضای برداری نشان داده شده است. در این مدل dدر هر یک از اسناد(داکیومنت) یک بردار در نظر گرفته می شود. در ساده ترین شکل آن، هر سند توسط بردار (TF) نشان داده می شود.
جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.
که در آن tfi بسامد واژه است. (کلمات بسیار متداول کاملا تکمیل نشده و شکل های مختلف از این کلمات به یک شکل متعارف کاهش میابد).علاوه براین،ماازنسخهایازاین مدل که وزن هرواژه براساس بسامداسناد(داکیومنت)معکوس (IDF) درمجموعه اسناد(داکیومنت) قرار دارد استفاده کردیم. درنهایت،به منظورمحاسبه اسناد(داکیومنت)باطولهای مختلف،هربردارداکیومنت به صورت عادی در آمدطوریکه واحدطول در نظر گرفته شد.
اگر الگوریتم خوشه بندی مورد استفاده قرار گیرد، شباهت میان دو داکیومنت باید به طریقی اندازه گیری شود. روش های اندازه گیری مختلف و اندازه های ممکن برای محاسبه شباهت میان داکیومنت ها وجود دارد، اما یکی ازرایجترین اندازهگیری ها اندازه گیریکسینوس است که بصورت زیر تعریف می شود:
جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.
• در این معادله نقطه بردار محصول را نشان می دهد و ||d|| هم طول بردار dاست. به یک مجموعه،S،اسناد(داکیومنت)ونمایندگی بردارمتناظرباآنها است و c را هم بردار مرکز معرفی می کنیم.
چیزی بیش از بردار به دست آمده بواسطه میانگین وزن بردار در شرایط مختلف موجود در اسناد(داکیومنت)S نیست. شبیه به اسناد(داکیومنت)، شباهت بین دو بردار مرکز جرم و بین یک سند و یک بردار مرکز جرم را با استفاده از اندازه گیری کسینوس، محاسبه می کنند. برای مثال،
جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.
توجه داشته باشیدکه حتی اگربردارسندطول یک بردار باشد، بردارمرکزجرم لزومی به طول واحدندارد. (مابااستفادهازاین دوتعریف دو روشهای سلسله مراتبی متراکم را در بخش 7 تعریف می کنیم. بترتیب در قسمت"شباهت درون خوشه و" تکنیکهای شباهت مرکز " ).
در خوشه بندی k-means اندازه گیری کسینوس برای محاسبه استفاده می شود که مرکز ثقل اسناد(داکیومنت) به اسناد(داکیومنت) مورد نظر نزدیکتر است. درحالیکه به طورمتوسط گاهی اوقات به عنوان مرکزبرای خوشه بندیk-means استفاده می شود.مابه دنبال عمل مشترک استفاده ازمیانه هستیم. اندازه گیری میانه meanآسانترازmedianدیگر است. وخاصیت های خوب ریاضی را دارا است.
به عنوان مثال،محاسبه محصول نقطه بین یک سندویک مرکزخوشه و یک مرکز ثقل خوشه با محاسبه میانگین تشابهات میان آن سند و تمام اسناد(داکیومنت)ی که نشانگرهای مرکزی خوشه را محاسبه کردند برابر است.( این مشاهدات اساس "تشابه روش خوشه بندی سلسله مراتبی متراکم شونده در بخش 7 است.) از لحاظ ریاضی
محاسبه می شود.
همچنین مجذور طول بردار مرکزی تنها شباهت دوبه دوبه طورمتوسط بین تمام نقاط درخوشهاست. (این شامل شباهت به هرنقطه باخودش استکه فقط 1.)دربخش زیر،ما ازاین شباهت دوبه دومتوسط به عنوان پایه واساس یکی ازاقدامات اندازه گیری کمی خوبیت الگوریتم خوشه بندی استفاده می کنیم.
بررسی کیفیت خوشه
برای خوشه بندی، دو اندازه برتری و یا کیفیت خوشه استفاده می شود. یکنوع ازاین اندازه ها امکان مقایسه مجموعه های مختلف خوشه هابدون توجه به دانش خارجی را مقدور می سازد و اندازه گیری کیفیت داخلی نامیده میشود. همانطورکه دربخش قبلی اشاره شد، از اندازه " شباهت کلی " براساس شباهت دوبه دوازاسناد(داکیومنت)دریک خوشه استفاده می کنیم.نوع دیگری از اندازه ها امکان ارزیابی کارکرد خوب خوشه ها را بواسطه مقایسه گروه های تولیدی با روش های خوشه بندی در طبقات شناخته شده می دهد. این نوع اندازه گیری اندازه گیری کیفیت خارجی نامیده میشود. یک اندازه گیری خارجی واحداندازه گیرى ترمودینامیک است. که اندازه برتری خوشه های غیر تودرتو و یا خوشه هایی در یک سطح خوشه بندی سلسله مراتبی ایجاد می کند.یکی دیگرازاندازه گیریهای خارجیf-measure را اندازه می گیرد. همانطورکه مادراینجاازآن استفاده کردیم، متمایل به اندازه گیری کارآمدی خوشه بندی سلسله مراتبی است. اندازه گیریFدارای سابقه ای طولانی است،امااخیرا بیشتر بصورت سلسله مراتب اندازه گیری می شود.
اندازه گیری کمیت به طرق مختلف انجام می شود و عملکر دورتبه بندی نسبی الگوریتم خوشه بندی های مختلف به طورقاب لملاحظه ای به نوع روش اندازه گیری که استفاده می شود بستگی دارد. بااینحال،اگریک الگوریتم خوشهبندی بهترازدیگرالگوریتمهای خوشه بندی عمل کند، مطمئن خواهیم شد که بهترین الگوریتم خوشه بندی برای اینوضعیت درحال ارزیابی است. همانطورکه در بخش نتایج توضیح خواهیم داد، الگوریتم k-meansbisectingبهترین عملکرد را در خصوص آنچه توضیح دادیم دارد.
آنتروپی(فیزیک) واحداندازهگیریترمودینامیک)
از آنتروپی به عنوان اندازه گیری کیفیت خوشه ها( با پیشبینیاحتیاطی که بهترین انتروپی زمانی بدست می آید که هر خوشه شامل یک نقطه داده باشد) CSمی تواندیک راه حل خوشه بندی باشد.برای هرخوشه،توزیع رده ای ازدادهها ابتدا محاسبه می شود.به عنوان مثال،برای خوشهJpijرا محاسبه کردیم و امکان احتمال که متعلق به ردهi است. سپس بااستفاده از توزیع رده،آنتروپی ازهرخوشهJبااستفادهازفرمول استانداردمحاسبه محاسبه شد. در این معادله خلاصه ای از همه طبقات بررسی می شود. آنتروپی کل برای مجموعه ای از خوشه ها به عنوان خلاصه آنتروپی های هر خوشه که بواسطه اندازه هر خوشه اندازه گیری شده است محاسبه می شود:
جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.
که در این معادله nj اندازه خوشه j ,m تعداد خوشه و n تعداد کل نقطه داده ها است.
اندازه گیری f
دومین اندازه گیری کیفیت خارجی اندازه گیری f است. [LA99], این مقیاس ترکیبی از دقت و بازبینی اطلاعات است. [Rij79, Kow97]. در هر خوشه با روش هایی سروکار داشتیم که گویی نتیجه بازبینی ها هستند و هر رده هم گویی مجموعه ای از اسناد(داکیومنت) برای بازبینی را توضیح می دهد. سپس هر خوشه را با دقت بازبینی نمودیم به خصوص، در خوشه jردهi .
Recall( i, j ) = nij / ni
Precision( i, j ) = nij / nj
در این معادلات nij تعداد اعضا ردهi در خوشهj است کهnj تعداد اعضا خوشه j و ni تعداد اعضا ردهi است.
اندازه f در خوشه j و ردهi بصورت زیر نمایش داده می شود:
F(i, j) = (2 * Recall( i, j ) * Precision( i, j )) / ((Precision( i, j ) + Recall( i, j ))
برای تمام خوشه بندی های سلسله مراتبی اندازه f از هر رده بیشینه مقدار است که در هر گره در درخت و مقدار کلی اندازه f بواسطه میانگین وزن شده مقدار کلی محاسبه می شود و بصورت زیر نشان داده می گردد:
که در آن بیشینه از تمام خوشه ها در همه سطوح گرفته می شود و n تعداد اسناد(داکیومنت) است.
شباهت کلی
بدون داشتن اطلاعات اضافی از قبیل برچسب رده، انسجام خوشه ها بعنوان اندازه شباهت خوشه استفاده می شود. یک روش برای محاسبه انسجام خوشه استفاده از شباهت های وزنی تشابهات خوشه داخلی، دربخش 3 نشان داده شده است که این فقط مجذور طول مرکز خوشه است.
تعریف k-means و k-meansbisecting
دراین بخش مسائ لمربوط به الگوریتم خوشه بندیK-means بررسی می شود و الگوریتم bisecting k-meansآن معرفی می شود.
راههای بسیاری برای افزایش پایه الگوریتمk-means وجود دارد که در بخش 2 با ارائه مثالهایی توضیح می دهیم. به قسمت [CKPT92, BF98, and LA99] رجوع شود.امابرای نگهداشتن چیزهای ساده،یک پیاده سازی بسیارساده وکارآمد ازالگوریتمk-means انتخاب می کنیم. به عنوان مثال، مرکز ثقل اولیه را انتخاب می کنیم که بصورت انتخابی اسناد(داکیومنت)k را برمی گزیند.
بااینحال، ما به روز رسانی ثقل تدریجی افزایشی را انتخاب کردیم. برای مثال، همانطور که هر نقطه برای یک خوشه تعریف شده نه اینکه در پایان انتساب بعنوان نشانگر در الگوریتم k-means در بخش2. دلیل ما این بود که مامتوجه شدیم که به روزرسانی افزایشی موثرتربوده است. برای مثال، نتایج با داشتن تشابهات کلی بهتر و آنتروپی پایین تولید شدند. نسخه افزایشیKmeans همچنین در [LA99].برسی شده است.
برای آنچه در ادامه خواهیم گفت دلیل استفاده از الگوریتم bisecting K-means به عنوان خوشه اولیه را در می ابیم. این الگوریتم با یک خوشه مفرد از کل داکیومنت آغاز می شود و به صورت زیر عمل می کند:
یک خوشه را برای تقسیم انتخاب کنید
2 زیرخوشه مبتنی برپایه الگوریتمk-means پیدا کنید.(نیمسازگام به گام)
مرحله 2 را تکرار کنید یعنی مرحله bisectingبرایزمانITERخوشه بندی با بالاترین شباهت کلی بدست می دهد.
مراحل 1 ،2،3 را تکرارکنیدتازمانیکه شماره موردنظرازخوشه بدست آید.
راههای بیشماری برای انتخاب خوشه ای که باید به دوقسمت تقسیم شود وجود دارد. برای مثال، می توانیم در هر مرحله بزرگترین خوشه را انتخاب کنید، با دارا بودن دست کم یک تشابه کلی و یا از موردی مبتنی بر اندازه و یا شباهت کلی برای انتخاب خوشه اول استفاده کنید. ما روش های بیشماری را امتحان کردیم و مشخص کردیم که تفاوت میان روش ها بسیار کم است. درادامه این مقاله مابزرگترین خوشه باقیمانده را انتخاب کرده و آن را تقسیم کردیم.
توجه داشته باشیدکه الگوریتم bisecting K-means هم خوشه بندی غیر تودرتو(مسطح) و یاخوشه بندی سلسله مراتبی تولید می کند. در مورد خوشه بندی غیر تودرتو و یا همان مسطح اغلب خوشه ها را اصلاح می کنیم اما در مورد خوشه بندی تودرتو این امکان وجود ندارد. جزئیات بیشر را بعدا به تفصیل بیان می کنیم.
صرفا جهت توضیح، الگوریتم k-meansbisectingبه معنی خوشه بندی سلسله مراتبی تقسیمکننده است. اما، برای جلوگیری ازسردرگمی،زمانیکه ماازالگوریتمهای خوشهبندی سلسله مراتبی سخن میگوییم منظورمان این است که الگوریتم سلسله مراتبی متراکم شونده نوع سنتی را در خوشه بندی اسناد(داکیومنت) استفاده کردیم
درنهایت،توجه داشته باشیدکهbisecting K-means دارای پیچیدگیهای زمانی به صورت خطی است. اگرتعدادخوشه بزرگ است واگراصلاح آن مقدور نیست، در این صورت bisecting K-means از الگوریتم عادیk-means کاربردی تر است.( دراینمورد،نیازب هم قایسه هرنقطه باهرمرکزجرم خوشه نیست. درحالی که برای دوبخش کردن یک خوشه فقط درنظرگرفتن نقاط درخوشه وفاصله آنها ازدوثقل مهم است).
مجموعه داده
در تمام مجموعه داده ها واژه ها را حذف می کنیم. به عنوان مثال، لغات متداولی مانند یک(a)، فعل است(are)، انجام دادن(do)، برای(for).بنابراین، تمام واژه های اشتراک گذارده شده مشابه ریشه اصلی به یک صورت در نظر گرفته می شوند. به عنوان مثال،عبارت "محاسبه"، "محاسبات"،و "محاسبه کردن" از ریشه "محاسبات" هستند.
خلاصه ای ازمدارک مورداستفاده درای نمقاله درجدول 1 نشانداده شده است. اطلاعات مربوط به هر
مجموعه داده ها در اینجا شرح داده می شود. مجموعه داده tr31 و tr45 متعلق به TREC-5 [trec], TREC-6 [trec] و TREC-7 [trec]. مجموعه داده fbis از داده های سرویس اطلاعات خارجی TREC-5[TREC] .
مجموعه داده la1 و la2 از داده های زمانی لوس آنجلس TREC-5 [trec].
برچسب طبقات tr31 و tr45 بواسطه موارد زیر ارائه می شود.
جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.
A Comparison of Document Clustering Techniques
مقایسه و بررسی روش های خوشه بندی اسناد
ISI
Paper
Papers
Article
Articles
مقاله ISI
دانلود ISI
ترجمه مقاله
دریافت مقاله
مقاله انگلیسی
Persian Paper
خرید ترجمه ISI
مقایسه و بررسی
Persian Article
خوشه بندی اسناد
ترجمه مقاله ISI
مقاله رایگان ISI
دانلود مقاله ISI
خرید ترجمه مقاله
دانلود ترجمه ISI
دانلود مقاله جدید
دریافت مقالات ISI
مقالات رایگان ISI
مقاله ISI با ترجمه
مقاله انگلیسی جدید
خرید ترجمه انگلیسی
فروش ترجمه انگلیسی
ترجمه مقاله انگلیسی
دانلود مقاله انگیسی
مقالات معتبر انگلیسی
ترجمه مقالات انگلیسی
دریافت مقاله انگلیسی
ترجمه مقاله کامپیوتر
دریافت مقاله کامپیوتر
دانلود مقاله جدید ISI
مقاله انگلیسی با ترجمه
خرید ترجمه ISI کامپیوتر
Translate English Paper
دانلود رایگان مقاله ISI
دانلود مقالات رایگان ISI
ترجمه مقاله ISI کامپیوتر
دانلود مقاله انگلیسی جدید
خرید ترجمه مقاله کامپیوتر
Translate English Article
دانلود ترجمه ISI کامپیوتر
مقاله رایگان ISI کامپیوتر
دانلود مقاله ISI با ترجمه
دریافت مقاله انگلیسی جدید
Translate Paper in English
دریافت مقالات ISI کامپیوتر
ترجمه مقالات معتبر انگلیسی
مقالات رایگان ISI کامپیوتر
فروش ترجمه انگلیسی کامپیوتر
دانلود مقاله انگلیسی رایگان
دریافت مقاله انگلیسی رایگان
خرید ترجمه انگلیسی کامپیوتر
دانلود رایگان مقاله انگلیسی
دانلود مقاله انگلیسی رایگان
مقاله انگلیسی جدید کامپیوتر
ترجمه مقاله انگلیسی کامپیوتر
Translate Article in English
دریافت مقاله انگلیسی کامپیوتر
دریافت مقاله انگلیسی با ترجمه
دانلود مقاله انگلیسی با ترجمه
ترجمه مقالات انگلیسی کامپیوتر
مقالات معتبر انگلیسی کامپیوتر
Translation of Paper in English
دانلود رایگان مقاله ISI کامپیوتر
دانلود مقالات رایگان ISI کامپیوتر
Translation of Article in English
دریافت مقاله انگلیسی جدید کامپیوتر
دانلود مقاله انگلیسی جدید کامپیوتر
ترجمه مقالات معتبر انگلیسی کامپیوتر
دانلود مقاله انگلیسی رایگان کامپیوتر
دانلود رایگان مقاله انگلیسی کامپیوتر
دریافت مقاله انگلیسی رایگان کامپیوتر
دانلود مقاله انگلیسی رایگان کامپیوتر
دریافت مقاله انگلیسی با ترجمه کامپیوتر
به سوی پایگاه داده چندگانه (اشتراکی) انعطاف پذیر و مستقل
.png)
Abstract The success of cloud computing as a platform for deploying webapplications has led to a deluge of applications characterized by small data footprints with unpredictable access patterns. A scalable multitenant ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


رویکردی در ارتباط با معماری خط تولید سرویسگرا
.png)
Abstract Service-Oriented Architecture (SOA) has appeared as an emergent approach for developing distributed applications as a set of self-contained and business-aligned services. SOA aids solving integration and interoperability problems and provides ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


ظرفیت شبکه های بی سیم
.png)
Abstract When n identical randomly located nodes, each capable of transmitting at W bits per second and using a fixed range, form a wireless network, the throughput (formula) obtainable by each ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 139500 تومان


سیستم های صف بندی زمان گسسته با تعطیلی های انحصاری مارکوفب
.png)
Abstract In this contribution we investigate discrete-time queueing systems with vacations. A framework is constructed that allows for studying numerous different vacation systems, including a.o. classical vacation systems like the exhaustive ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


عوامل تعیینکننده در انتخاب نرمافزار وبمحور معنایی در قالب یک سرویس:
چارچوبی یکپارچه در شرایط خرید الکترونیکی و برنامه ریزی منابع سرمایه ای
.png)
Abstract The ever increasing Internet bandwidth and the fast changing needs of businesses for effectiveness with the partners in the procurement chain and is leading organizations to adopt information systems infrastructures ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


طراحی و تحلیل یک مدل وقفه (تعطیلی) برای سیستم صف بندی دو فازه با خدمات ورودی
.png)
Abstract This paper mainly deals with a two phase service queueing model with gated service vacation. In this gated service vacation model, only those customers who are present in the queue ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


به اشتراک گذاری طیف مشارکتی بین شبکه های تلفن همراه و اد هاک
.png)
Abstract Spectrum sharing between cellular and ad-hoc networks is studied in this work. Weak signals and strong interferences at the cell-edge area usually cause severe performance degradation. To improve the cell-edge ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 139500 تومان


مقایسه پروتکل های مسیر یابی تک مسیره در مقابل پروتکل های مسیر یابی چندگانه برای انتقال تصویر در شبکه های حسگر بی سیم چند رسانه ای
.png)
Abstract Wireless multimedia sensor network (WMSN) applications require strong multimedia communication competence. Therefore, in WMSN applications, it is necessary to use specific mechanisms in order to handle multimedia communication challenges and ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


هوش کسب و کار به روش محاسبه ابری
.png)
Abstract Business Intelligence (BI) deals with integrated approaches to management support. Currently, there are constraints to BI adoption and a new era of analytic data management for business intelligence these constraints ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


مدل احتمال جدید برای ضمانت کردن مشکل مسیر بحرانی با الگوریتم اکتشافی
.png)
Abstract In order to obtain an adequate description of risk aversion for insuring critical path problem, this paper develops a new class of two-stage minimum risk problems. The first-stage objective function ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


دستورالعمل طراحی و محاسبه سیستم روشنایی
.png)
مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]
قیمت: 119500 تومان
مشخصات کلی:
صفحات متن اصلی: 30
گروه:
دستورالعمل طراحی

صفحات متن اصلی: 30
گروه: دستورالعمل طراحی

فایل اکسل طراحی مخزن فلزی هوایی بر اساس آیین نامه AISC با در نظر گرفتن نیروی باد و زلرله
.png)
فایل پیش رو اکسل طراحی مخزن فلزی هوایی می باشد که بر اساس آیین نامه AISC و با در نظر گرفتن نیروی باد و زلرله محاسبات را انجام داده و ... [ ادامه مطلب ]
قیمت: 79500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

فایل اکسل تحلیل اتصال برشی دارای خروج از مرکزیت برای گروه پیچ
.png)
این برنامه ظرفیت برشی اتصال پیچ و مهره ای دارای خروج از مرکزیت برای گروه پیچ را محاسبه می کند، ابزاری مناسب برای طراحی صفحات gusset و اتصالات پیچ و ... [ ادامه مطلب ]
قیمت: 79500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

فایل اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو و استفاده از آزمایش ظرفیت باربری کالیفرنیا
.png)
فایل پیش رو اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو می باشد که با استفاده از نتایج آزمایش ظرفیت باربری کالیفرنیا CBR اطلاعات ورودی را تحلیل و نتایج را ... [ ادامه مطلب ]
قیمت: 79500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

طراحی ابعاد و سازه شالوده های عمیق (شمع ها و پایه های عمیق) در خشکی
.png)
مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]
قیمت: 119500 تومان
مشخصات کلی:
صفحات متن اصلی: 27
گروه:
دستورالعمل طراحی

صفحات متن اصلی: 27
گروه: دستورالعمل طراحی

تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method
.png)
"پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش سازه" تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method مشخصات کلی: شامل فایلهای word و ... [ ادامه مطلب ]
قیمت: 129500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

بررسی پارامترهای هندسی مهاربند زانویی
.png)
"پروژه دانشجویی مهندسی عمران" بررسی پارامترهای هندسی مهاربند زانویی مشخصات کلی: شامل فایلهای word و pdf بالغ بر 146 صفحه (4 فصل) فهرست مطالب فصل اول 1-1- مقدمه 1-2- شکل پذیری سازه ها 1-3- مفصل و لنگر پلاستیک 1-4- منحنی ... [ ادامه مطلب ]
قیمت: 129500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره کننده های حرارتی PCM
.png)
"پایان نامه مهندسی مکانیک مقطع کارشناسی ارشد - گرایش تبدیل انرژی" تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره کننده های حرارتی PCM تهیه شده بصورت کاملا انحصاری توسط ... [ ادامه مطلب ]
قیمت: 449000 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه موردی پروژه های "پتروشیمی الف"
.png)
"پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش مهندسی و مدیریت ساخت" شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه ... [ ادامه مطلب ]
قیمت: 259500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

مکانیک شکست (Fracture Mechanics)
.png)
مقدمه : یکی از عمده ترین مسائلی که انسان از زمان ساختن سادهترین ابزارها با آن مواجه بوده است پدیده شکست در اجسام میباشد و درواقع برای استفاده از مواد ... [ ادامه مطلب ]
قیمت: 99500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی
