مجله اینترنتی دیتاسرا
امروز جمعه ۱۰ مرداد ۱۴۰۴

مقایسه و بررسی روش های خوشه بندی اسناد A Comparison of Document Clustering Techniques

Abstract



This paper presents the results of an experimental study of some common document clustering techniques. In particular, we compare the two main approaches to document clustering, agglomerative hierarchical clustering and K-means. (For K-means we used a “standard” K-means algorithm and a variant of K-means, “bisecting” K-means.) Hierarchical clustering is often portrayed as the better quality clustering approach, but is limited because of its quadratic time complexity. In contrast, K-means and its variants have a time complexity which is linear in the number of documents, but are thought to produce inferior clusters. Sometimes K-means and agglomerative hierarchical approaches are combined so as to “get the best of both worlds.” However, our results indicate that the bisecting K-means technique is better than the standard K-means approach and as good or better than the hierarchical approaches that we tested for a variety of cluster evaluation metrics. We propose an explanation for these results that is based on an analysis of the specifics of the clustering algorithms and the nature of document data.



چکیده فارسی



این مقاله به بررسی نتایج حاصل از مطالعات تجربی روش های متداول خوشه بندی اسناد(داکیومنت) می پردازد. به خصوص در این مقاله، دو روش اصلی خوشه بندی داکیومنت به نام های خوشه‌بندی سلسله مراتبی متراکم و روش k-mean را بررسی و مقایسه می کنیم. (در روش k-means از الگوریتم استاندارد k و متغیر آن وbisecting K-means استفاده کرده ایم). خوشه بندی سلسله مراتبی اغلب به عنوان روش خوشه بندی با کیفیت بهتر به تصویر کشیده می شود، اما به دلیل پیچیدگی های زمانی کوادراتیک یا درجه دوم آن محدودیت هایی هم دارد. در مقابل، روش k-means و متغیرهای آن دارای پیچیدگی های زمانی بصورت خطی است اما خوشه های درجه دوم و پایین تری بوجود می آورد. برخی مواقع، روش سلسله مراتبی و k-means به منظور دست یابی به بهترین روش با هم ترکیب می شوند. با این حال، نتایج بدست آمده از تحقیق ما حاکی از این است که روش k-meansbisecting بهتر از استاندارد k-means است و بهتر و مناسب تر از روش سلسله مراتبی است که ما معیارهای ارزیابی خوشه را آزمایش کردیم. توضیحاتی برای این نتایج بدست آمده داریم که مبتنی بر تجزیه و تحلیل جزئییات الگوریتم خوشه بندی و ماهیت داده های داکیومنت ارائه شده است.


مشخصات

مشخصات

توسط: Michael Steinbach, George Karypis, Vipin Kumar مجله: Department of Computer Science and Egineering انتشارات: University of Minnesota تعداد صفحات متن اصلی: 20 تعداد صفحات متن ترجمه: 17 تاریخ درج: ۱۳۹۵/۶/۲ منبع: دیتاسرا

خرید آنلاین فایل ترجمه

خرید آنلاین فایل ترجمه

عنوان: مقایسه و بررسی روش های خوشه بندی اسناد حجم: 170.82 کیلوبایت فرمت فایل: pdf قیمت: 139500 تومان رمز فایل (در صورت نیاز): www.datasara.com نرم افزارهای مورد نیاز: winrar - adobe acrobat - office

در صورتی که به هر دلیل از خرید خود رضایت نداشتید
تنها با ارسال یک ایمیل وجه خود را دریافت نمایید
دانلود فایل اصلی

دانلود فایل اصلی

عنوان: A Comparison of Document Clustering Techniques

رمز فایل
رمز فایل (در صورت نیاز): www.datasara.com
نرم افزار مورد نیاز
نرم افزارهای مورد نیاز: winrar - adobe acrobat - office

نمای مطلب

پیش زمینه و انگیزه و هدف تحقیق



خوشه بندی اسناد(داکیومنت) برای استفاده در حوزه های متعددی ازجمله معنای متن و بازیابی اطلاعات بررسی شده است. درابتدا، روش خوشه بندی اسناد(داکیومنت) در جهت بهبود دقت و یا فراخوان در سیستم های بازیابی اطلاعات [Rij79, Kow97] بررسی شد و روشی کارآمد برای این منظور مشخص گردید[BL85]. به تازگی خوشه بندی به منظور استفاده در مرور یک مجموعه ای از اسناد(داکیومنت) ارائه می شود [CKPT92] و یا در سازماندهی نتایج که بواسطه یک موتور جستجو برای کاربر مفید واقع می شود. [ZEMK97]. خوشه بندی اسناد(داکیومنت) همچنین برای تولید خودکار خوشه های سلسله مراتبی استفاده شده است [KS97]. (نسل خودکار رده بندی اسناد(داکیومنت) وب همانند  موارد تولیدی یاهو (www.yahoo.com) اغلب به عنوان یک هدف ذکر شده است.). یک روش تاحدودی متفاوت هم به این صورت است که خوشه های طبیعی در رده بندی سند در حال حاضر موجود (یاهو) وجود دارد. [AGY99]. و پس از آن از این خوشه ها به منظور تولید یک رده بندی سند موثر برای اسناد(داکیومنت) جدید استفاده می شود. خوشه بندی سلسله مراتبی متراکم و روش k-means دو روش خوشه است که معمولا برای خوشه بندی سند استفاده می شود. خوشه بندی سلسله مراتبی گرچه کندتر است اما اغلب از روش k-means بهتر و کاربردی تر است.  مطالعه شناخته شده گسترده ای در این زمینه وجود دارد که در [DJ88] بتفصیل بیان شده است، این مباحث نشانگر این است که خوشه بندی سلسله مراتبی نسبت به k-means ارجح تر است، گرچه باید به این نکته توجه داشته باشید که این نتایج از طریق داده های غیر داکیومنت بدست آمده است. در حوزه داکیومنت، پراکندگی / جمع آوری [CKPT92]، سیستم بازبینی داکیومنت مبتنی بر خوشه بندی با استفاده از یک روش ترکیبی که شامل هر دو روش خوشه بندی ذکر شده است انجام می گیرد.K-means روشی است که بعلت کارآمدی آن مورد استفاده قرار می گیرد و روش خوشه بندی سلسله مراتبی متراکم به دلیل کیفیت آن مورد توجه است. تحقیقات اخیر در ایجاد سلسله مراتب اسناد(داکیومنت) [LA99] استفاده از برخی از تکنیک های خوشه بندی [CKPT92] را ملزم ساخته و نتیجه این تحقیقات نشان می دهد که خوشه بندی سلسله مراتبی از روش K-means بهتر است. اگرچه این نتایج تنها در مورد یک مجموعه داده واحد کاربرد دارد و یکی ازنتایج عمده ای تحقیق ما محسوب نمی شود.



جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.



درابتدا براین باور بودیم که خوشه بندی سلسله مراتبی متراکم نسبت به خوشه بندیk-means اولویت دارد، همانطور که می دانیم در روش خوشه بندی سلسله مراتبی، به خوشه‌های نهایی بر اساس میزان عمومیت آنها  ساختاری سلسله‌ مراتبی، معمولا به صورت درختی نسبت داده می‌شود به ویژه برای ساختن سلسله مراتب اسناد(داکیومنت)، به دنبال پیدا کردن الگوریتم های خوشه بندی سلسله مراتبی جدید و بهتری بودیم. با این حال، در طول این دوره آزمایش ها دریافتیم که یک نوع ساده و کارآمد روش k-means بصورت bisectingروشی مناسبتر و سودمند تر از نوع مرسوم k-means تولید می کند و حتی در مواردی بهتر از تکنیک های خوشه بندی سلسله مراتبی عمل می کند. در این مقاله سعی کردیمتوضیح منطقی برای این رفتار پیدا کنیم.



طرح کلی مطالب اساسی این مقاله به شرح زیر است. بخش 2 بررسی مختصری از تکنیک های خوشه بندی سلسله مراتبی متراکم ارائه می دهد در حالی که بخش 3 طرح فضایی بردار برای اسناد(داکیومنت) را بررسی می کند، به ویژه جنبه های لازم برای درک خوشه بندی اسناد(داکیومنت) را بیان می کند. بخش 4 اندازه گیری های کیفیت خوشه هایی که به عنوان مبنایی برای مقایسه تکنیک های مختلف خوشه بندی اسناد(داکیومنت) مورد استفاده قرار می گیرد را ارائه می دهد و در بخش 5 جزئیات بیشتر در مورد k-means و الگوریتم k-meansbisectingارائه می دهد. بخش 6 به طور خلاصه مجموعه داده های استفاده شده در آزمایشات ما را شرح می دهد و بخش های 7 و8 نتایج تجربی بدست آمده را بیان می کنیم. بطور خاص، بخش 7 سه روش سلسله مراتبی متراکم را مقاسیه می کند. درحالیکه بخش 8 روش سلسله مراتبی k-means و bisecting K-means را بررسی و مقایسه می کند. فصل 9 هم نتایج بدست آمده را توضیح داده و در بخش 10  خلاصه ای از نتایج بدست آمده را شرح می دهیم.



 تکنیک های خوشه بندی



در این بخش مروری کوتاه بر تکنیک های خوشه بندی سلسله مراتبی و جزئ بندی داریم. [DJ88, KR90].



تکنیک های سلسله مراتبی یک توالی پارتیشن های تو در تو با خوشه ای واحد و متشکل از همه چیز در خوشه بالا و تک قلو از نقاط مشخص در پایین می سازد. هر سطح متوسط ​​به عنوان ترکیب دو خوشه از سطح پایین تربعدی (یا تقسیم یک خوشه از سطح بالاتر بعدی) مشاهده می شود. نتایج الگوریتم خوشه بندی سلسله مراتبی بطور برجسته بصورت درختی نمایش داده می شود که به این درخت سلسله مراتبی دندوگرام (dendogram) می‌گویند. این نمودار درختی فرآیند ادغام و خوشه متوسط ​​را نشان می دهد. دندوگرام در سمت راست نشان می دهد که چگونه چهار نقطه(پوینت) را می توان به یک خوشه واحد ادغام کرد. در مورد خوشه بندی داکیومنت این دندوگرام یک رده بندی، یا شاخص سلسله مراتبی ایجاد می کند.



دو روش اساسی برای تولید خوشه بندی سلسله مراتبی وجود دارد:



الف)  پایین به بالا (Bottom-Up) یا متراکم شونده (Agglomerative): در این روش ابتدا هر داده‌ها به عنوان خوشه‌ای مجزا در نظر گرفته می‌شود و در طی فرایندی تکراری در هر مرحله خوشه‌هایی که شباهت بیشتری با یکدیگر دارند ترکیب می‌شوند تا در نهایت یک خوشه و یا تعداد مشخصی خوشه حاصل شود.



ب) بالا به پایین (Top-Down) یا تقسیم کننده (Divisive): در این روش ابتدا تمام داده‌ها به عنوان یک خوشه در نظر گرفته می‌شوند و سپس در طی یک فرایند تکراری در هر مرحله داده‌هایی شباهت کمتری به هم دارند به خوشه‌های مجزایی شکسته می‌شوند و این روال تا رسیدن به خوشه‌هایی که دارای یک عضو هستند ادامه پیدا می‌کند.



روش متراکم شونده بیشتر رایج است، و این روشی است که در مطالعه مان با روش k-means و متغیرهای آن مقایسه کردیم. (برای مقایسه روش های خوشه بندی سلسله مراتبی به منظور بازیابی اسناد(داکیومنت) به [EW89] رجوع شود) روش خوشه بندی سلسله مراتبی متراکم شونده سنتی به شرح زیر است:




  • الگوریتم خوشه بندی متراکم شونده ساده

  • محاسبه شباهت بین همه جفت خوشه ها، برای مثال، محاسبه ماتریس مشابهات که ijthشباهات میان خوشه  , jthو ith را مشخص می کند.

  • ادغام شبیه ترین (نزدیک ترین) دو خوشه.

  • بروزرسانی ماتریس مشابهات برای منعکس کردن شباهت دو به دو بین خوشه جدید و خوشه اصلی.

  • تکرار مراحل 2 و 3 تا زمانی که تنها یک خوشه مجزا باقی بماند.



در مقایسه با روش های سلسله مراتبی، تکنیک های خوشه بندی مجزاکننده یک سطح غیر تودرتو بخش های داده ها ایجاد می کند. اگر k تعداد مورد نظر خوشه باشد، سپس روش مجزاکننده به طور معمول تمام خوشه های K در یک باررا پیدا می کند. در مقابل با طرح های سنتی سلسله مراتبی قرار دارد که یک خوشه را به دو خوشه تقسیم می کند و یا اینکه دو خوشه را به یکی ادغام می سازد. البته، یک روش سلسله مراتبی را می توان برای ایجاد یک پارتیشن مسطح از خوشه K استفاده کرد و و به همین ترتیب، کاربرد مکرر از طرح مجزاکننده خوشه بندی سلسله مراتبی را فراهم می آورد. الگوریتم k-meansbisectingکه بعدا ارائه می دهیم چنین رویکرد و روشی است.



روش های مجزاکننده دیگری هم هست که البته ما در این مقاله تنها روش الگوریتم k-means را بررسی می کنیم که بطور گسترده ای در خوشه بندی اسناد(داکیومنت) کاربرد دارد. K-means مبتنی بر ایده بخش مرکزی می تواند یک خوشه را نشان دهد. به طور خاص، K-بدان معناست که ما مفهوم یک مرکز، که نقطه(پوینت) متوسط ​​و یا متوسط ​​از یک گروه از نقاط را استفاده می کند. توجه داشته باشید که مرکز جرم تقریبا هرگز به یک نقطه(پوینت) داده های واقعی مربوط نمی شود.



روش خوشه بندی K-ابزار اساسیآن در زیر معرفی شده اند: موارد مختلف را در بخش های بعدی بتفصیل بیان خواهیم کرد.



اساس الگوریتم k-means در مورد یافته های خوشه های k .




  • نقاط K را به عنوان ثقل اولیه انتخاب کنید.

  • تمام نقاط به نزدیکترین مرکز جرم اختصاص دهید.

  • مرکز جرم هر یک از خوشه ها را دوباره محاسبه کنید.

  • مراحل 2 و 3 را تکرار کنید تا زمانی که ثقل تغییر پیدا نکند.



مدل  فضای برداری و خوشه بندی داکیومنت



بسیاری از مسائل خاص اسناد(داکیومنت) به طور کامل در متون بازیابی اطلاعات مورد بحث و بررسی قرار گرفته است[Rij79, Kow97]. ما به منظور ارائه پیش زمینه کافی برای درک خوشه بندی اسناد(داکیومنت) به طور خلاصه چند مبحث اساسی آن را بررسی خواهیم کرد.



اسناد(داکیومنت) الگوریتم های خوشه بندی با استفاده از مدل فضای برداری نشان داده شده است. در این مدل dدر هر یک از اسناد(داکیومنت) یک بردار در نظر گرفته می شود. در ساده ترین شکل آن، هر سند توسط بردار (TF) نشان داده می شود.



جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.



که در آن tfi بسامد واژه است. (کلمات بسیار متداول کاملا تکمیل نشده و شکل های مختلف از این کلمات به یک شکل متعارف کاهش میابد).علاوه براین،ماازنسخهایازاین مدل که وزن هرواژه براساس بسامداسناد(داکیومنت)معکوس (IDF) درمجموعه اسناد(داکیومنت) قرار دارد استفاده کردیم. درنهایت،به منظورمحاسبه اسناد(داکیومنت)باطولهای مختلف،هربردارداکیومنت به صورت عادی در آمدطوریکه واحدطول در نظر گرفته شد.



اگر الگوریتم خوشه بندی مورد استفاده قرار گیرد، شباهت میان دو داکیومنت باید به طریقی اندازه گیری شود. روش های اندازه گیری مختلف و اندازه های ممکن برای محاسبه شباهت میان داکیومنت ها وجود دارد، اما یکی ازرایجترین اندازهگیری ها اندازه گیریکسینوس است که بصورت زیر تعریف می شود:



جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.



• در این معادله نقطه بردار محصول را نشان می دهد و ||d|| هم طول بردار dاست. به یک مجموعه،S،اسناد(داکیومنت)ونمایندگی بردارمتناظرباآنها است و c را هم بردار مرکز معرفی می کنیم.



 



چیزی بیش از بردار به دست آمده بواسطه میانگین وزن بردار در شرایط مختلف موجود در اسناد(داکیومنت)S نیست. شبیه به اسناد(داکیومنت)، شباهت بین دو بردار مرکز جرم و بین یک سند و یک بردار مرکز جرم را با استفاده از اندازه گیری کسینوس، محاسبه می کنند. برای مثال،



جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.



توجه داشته باشیدکه حتی اگربردارسندطول یک بردار باشد، بردارمرکزجرم لزومی به طول واحدندارد. (مابااستفادهازاین دوتعریف دو روشهای سلسله مراتبی متراکم را در بخش 7 تعریف می کنیم. بترتیب در قسمت"شباهت درون خوشه و" تکنیکهای شباهت مرکز " ).



در خوشه بندی k-means اندازه گیری کسینوس برای محاسبه استفاده می شود که مرکز ثقل اسناد(داکیومنت) به اسناد(داکیومنت) مورد نظر نزدیکتر است. درحالیکه به طورمتوسط ​​گاهی اوقات به عنوان مرکزبرای خوشه بندیk-means استفاده می شود.مابه دنبال عمل مشترک استفاده ازمیانه هستیم. اندازه گیری میانه meanآسانترازmedianدیگر است. وخاصیت های خوب ریاضی را دارا است.



به عنوان مثال،محاسبه محصول نقطه بین یک سندویک مرکزخوشه و یک مرکز ثقل خوشه با محاسبه میانگین تشابهات میان آن سند و تمام اسناد(داکیومنت)ی که نشانگرهای مرکزی خوشه را محاسبه کردند برابر است.( این مشاهدات اساس "تشابه روش خوشه بندی سلسله مراتبی متراکم شونده در بخش 7 است.) از لحاظ ریاضی



محاسبه می شود.



همچنین مجذور طول بردار مرکزی تنها شباهت دوبه دوبه طورمتوسط ​​بین تمام نقاط درخوشهاست. (این شامل شباهت به هرنقطه باخودش استکه فقط 1.)دربخش زیر،ما ازاین شباهت دوبه دومتوسط ​​به عنوان پایه واساس یکی ازاقدامات اندازه گیری کمی خوبیت الگوریتم خوشه بندی استفاده می کنیم.



بررسی کیفیت خوشه



برای خوشه بندی، دو اندازه برتری و یا کیفیت خوشه استفاده می شود. یکنوع ازاین اندازه ها امکان مقایسه مجموعه های مختلف خوشه هابدون توجه به دانش خارجی را مقدور می سازد و اندازه گیری کیفیت داخلی نامیده میشود. همانطورکه دربخش قبلی اشاره شد، از اندازه " شباهت کلی " براساس شباهت دوبه دوازاسناد(داکیومنت)دریک خوشه استفاده می کنیم.نوع دیگری از اندازه ها امکان ارزیابی کارکرد خوب خوشه ها را بواسطه مقایسه گروه های تولیدی با روش های خوشه بندی در طبقات شناخته شده می دهد. این نوع اندازه گیری اندازه گیری کیفیت خارجی نامیده میشود. یک اندازه گیری خارجی واحداندازه گیرى ترمودینامیک است. که اندازه برتری خوشه های غیر تودرتو و یا خوشه هایی در یک سطح خوشه بندی سلسله مراتبی ایجاد می کند.یکی دیگرازاندازه گیریهای خارجیf-measure را اندازه می گیرد. همانطورکه مادراینجاازآن استفاده کردیم، متمایل به اندازه گیری کارآمدی خوشه بندی سلسله مراتبی است. اندازه گیریFدارای سابقه ای طولانی است،امااخیرا بیشتر بصورت سلسله مراتب اندازه گیری می شود.



اندازه گیری کمیت به طرق مختلف انجام می شود و عملکر دورتبه بندی نسبی الگوریتم خوشه بندی های مختلف به طورقاب لملاحظه ای به نوع روش اندازه گیری که استفاده می شود بستگی دارد. بااینحال،اگریک الگوریتم خوشهبندی بهترازدیگرالگوریتمهای خوشه بندی عمل کند، مطمئن خواهیم شد که بهترین الگوریتم خوشه بندی برای اینوضعیت درحال ارزیابی است. همانطورکه در بخش نتایج توضیح خواهیم داد، الگوریتم k-meansbisectingبهترین عملکرد را در خصوص آنچه توضیح دادیم دارد.



آنتروپی(فیزیک‌) واحداندازه‌گیری‌ترمودینامیک‌)



از آنتروپی به عنوان اندازه گیری کیفیت خوشه ها( با پیش‌بینی‌احتیاطی‌ که بهترین انتروپی زمانی بدست می آید که هر خوشه شامل یک نقطه داده باشد) CSمی تواندیک راه حل خوشه بندی باشد.برای هرخوشه،توزیع رده ای ازدادهها ابتدا محاسبه می شود.به عنوان مثال،برای خوشهJpijرا محاسبه کردیم و امکان احتمال که متعلق به ردهi است. سپس بااستفاده از توزیع رده،آنتروپی ازهرخوشهJبااستفادهازفرمول استانداردمحاسبه   محاسبه شد. در این معادله خلاصه ای از همه طبقات بررسی می شود. آنتروپی کل برای مجموعه ای از خوشه ها به عنوان خلاصه آنتروپی های هر خوشه که بواسطه اندازه هر خوشه اندازه گیری شده است محاسبه می شود:



جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.



که در این معادله nj اندازه خوشه j ,m تعداد خوشه و n تعداد کل نقطه داده ها است.



اندازه گیری f



دومین اندازه گیری کیفیت خارجی اندازه گیری f است. [LA99], این مقیاس ترکیبی از دقت و بازبینی اطلاعات است. [Rij79, Kow97]. در هر خوشه با روش هایی سروکار داشتیم که گویی نتیجه بازبینی ها هستند و هر رده هم گویی مجموعه ای از اسناد(داکیومنت) برای بازبینی را توضیح می دهد. سپس هر خوشه را با دقت بازبینی نمودیم به خصوص، در خوشه jردهi .



Recall( i, j ) = nij / ni



Precision( i, j ) = nij / nj



در این معادلات nij تعداد اعضا ردهi در خوشهj  است کهnj تعداد اعضا خوشه j و ni تعداد اعضا ردهi است.



اندازه f در خوشه j و ردهi بصورت زیر نمایش داده می شود:



F(i, j) = (2 * Recall( i, j ) * Precision( i, j )) / ((Precision( i, j ) + Recall( i, j ))



برای تمام خوشه بندی های سلسله مراتبی اندازه f  از هر رده بیشینه مقدار است که در هر گره در درخت و مقدار کلی اندازه f بواسطه میانگین وزن شده مقدار کلی محاسبه می شود و بصورت زیر نشان داده می گردد:



که در آن بیشینه از تمام خوشه ها در همه سطوح گرفته می شود و n تعداد اسناد(داکیومنت) است.



شباهت کلی



بدون داشتن اطلاعات اضافی از قبیل برچسب رده، انسجام خوشه ها بعنوان اندازه شباهت خوشه استفاده می شود. یک روش برای محاسبه انسجام خوشه استفاده از شباهت های وزنی تشابهات خوشه داخلی، دربخش 3 نشان داده شده است که این فقط مجذور طول مرکز خوشه است.



تعریف k-means و k-meansbisecting



دراین بخش مسائ لمربوط به الگوریتم خوشه بندیK-means بررسی می شود و الگوریتم bisecting k-meansآن معرفی می شود.



راههای بسیاری برای افزایش پایه الگوریتمk-means وجود دارد که در بخش 2 با ارائه مثالهایی توضیح می دهیم. به قسمت [CKPT92, BF98, and LA99] رجوع شود.امابرای نگهداشتن چیزهای ساده،یک پیاده سازی بسیارساده وکارآمد ازالگوریتمk-means انتخاب می کنیم. به عنوان مثال، مرکز ثقل اولیه را انتخاب می کنیم که بصورت انتخابی اسناد(داکیومنت)k  را برمی گزیند.



بااینحال، ما به روز رسانی ثقل تدریجی افزایشی را انتخاب کردیم. برای مثال، همانطور که هر نقطه برای یک خوشه تعریف شده نه اینکه در پایان انتساب بعنوان نشانگر در الگوریتم k-means  در بخش2. دلیل ما این بود که مامتوجه شدیم که به روزرسانی افزایشی موثرتربوده است. برای مثال، نتایج با داشتن تشابهات کلی بهتر و آنتروپی پایین تولید شدند. نسخه افزایشیKmeans همچنین در  [LA99].برسی شده است.



برای آنچه در ادامه خواهیم گفت دلیل استفاده از الگوریتم bisecting K-means به عنوان خوشه اولیه را در می ابیم. این الگوریتم با یک خوشه مفرد از کل داکیومنت آغاز می شود و به صورت زیر عمل می کند:



یک خوشه را برای تقسیم انتخاب کنید



2 زیرخوشه مبتنی برپایه الگوریتمk-means پیدا کنید.(نیمسازگام به گام)



مرحله 2 را تکرار کنید یعنی مرحله bisectingبرایزمانITERخوشه بندی با بالاترین شباهت کلی بدست می دهد.



مراحل 1 ،2،3 را تکرارکنیدتازمانیکه شماره موردنظرازخوشه بدست آید.



راههای بیشماری برای انتخاب خوشه ای که باید به دوقسمت تقسیم شود وجود دارد. برای مثال، می توانیم در هر مرحله بزرگترین خوشه را انتخاب کنید، با دارا بودن دست کم یک تشابه کلی و یا از موردی مبتنی بر اندازه و یا شباهت کلی برای انتخاب خوشه اول استفاده کنید. ما روش های بیشماری را امتحان کردیم و مشخص کردیم که تفاوت میان روش ها بسیار کم است. درادامه این مقاله مابزرگترین خوشه باقیمانده را انتخاب کرده و آن را تقسیم کردیم.



توجه داشته باشیدکه الگوریتم bisecting K-means هم خوشه بندی غیر تودرتو(مسطح)  و یاخوشه بندی سلسله مراتبی تولید می کند. در مورد خوشه بندی غیر تودرتو و یا همان مسطح اغلب خوشه ها را اصلاح می کنیم اما در مورد خوشه بندی تودرتو این امکان وجود ندارد. جزئیات بیشر را بعدا به تفصیل بیان می کنیم.



صرفا جهت توضیح، الگوریتم k-meansbisectingبه معنی خوشه بندی سلسله مراتبی تقسیم‌کننده‌ است. اما، برای جلوگیری ازسردرگمی،زمانیکه ماازالگوریتمهای خوشهبندی سلسله مراتبی سخن میگوییم منظورمان این است که الگوریتم سلسله مراتبی متراکم شونده نوع سنتی را در خوشه بندی اسناد(داکیومنت) استفاده کردیم



درنهایت،توجه داشته باشیدکهbisecting K-means دارای پیچیدگیهای زمانی به صورت خطی است. اگرتعدادخوشه بزرگ است واگراصلاح آن مقدور نیست، در این صورت bisecting K-means از الگوریتم عادیk-means کاربردی تر است.( دراینمورد،نیازب هم قایسه هرنقطه باهرمرکزجرم خوشه نیست. درحالی که برای دوبخش کردن یک خوشه فقط درنظرگرفتن نقاط درخوشه وفاصله آنها ازدوثقل مهم است).



مجموعه داده



در تمام مجموعه داده ها واژه ها را حذف می کنیم. به عنوان مثال، لغات متداولی مانند یک(a)، فعل است(are)، انجام دادن(do)، برای(for).بنابراین، تمام واژه های اشتراک گذارده شده مشابه ریشه اصلی به یک صورت در نظر گرفته می شوند. به عنوان مثال،عبارت "محاسبه"، "محاسبات"،و "محاسبه کردن" از ریشه "محاسبات" هستند.



خلاصه ای ازمدارک مورداستفاده درای نمقاله درجدول 1 نشانداده شده است. اطلاعات مربوط به هر

مجموعه داده ها در اینجا شرح داده می شود. مجموعه داده tr31 و tr45 متعلق به TREC-5 [trec], TREC-6 [trec] و TREC-7 [trec]. مجموعه داده fbis از داده های سرویس اطلاعات خارجی TREC-5[TREC] .



مجموعه داده la1 و la2 از داده های زمانی لوس آنجلس TREC-5 [trec].



برچسب طبقات tr31 و tr45 بواسطه موارد زیر ارائه می شود.



جهت مشاهده متن کامل فایل ترجمه را دانلود نمایید.


 برچسب ها: 

A Comparison of Document Clustering Techniques

مقایسه و بررسی روش های خوشه بندی اسناد

ISI

Paper

Papers

Article

Articles

مقاله ISI

دانلود ISI

ترجمه مقاله

دریافت مقاله

مقاله انگلیسی

Persian Paper

خرید ترجمه ISI

مقایسه و بررسی

Persian Article

خوشه بندی اسناد

ترجمه مقاله ISI

مقاله رایگان ISI

دانلود مقاله ISI

خرید ترجمه مقاله

دانلود ترجمه ISI

دانلود مقاله جدید

دریافت مقالات ISI

مقالات رایگان ISI

مقاله ISI با ترجمه

مقاله انگلیسی جدید

خرید ترجمه انگلیسی

فروش ترجمه انگلیسی

ترجمه مقاله انگلیسی

دانلود مقاله انگیسی

مقالات معتبر انگلیسی

ترجمه مقالات انگلیسی

دریافت مقاله انگلیسی

ترجمه مقاله کامپیوتر

دریافت مقاله کامپیوتر

دانلود مقاله جدید ISI

مقاله انگلیسی با ترجمه

خرید ترجمه ISI کامپیوتر

Translate English Paper

دانلود رایگان مقاله ISI

دانلود مقالات رایگان ISI

ترجمه مقاله ISI کامپیوتر

دانلود مقاله انگلیسی جدید

خرید ترجمه مقاله کامپیوتر

Translate English Article

دانلود ترجمه ISI کامپیوتر

مقاله رایگان ISI کامپیوتر

دانلود مقاله ISI با ترجمه

دریافت مقاله انگلیسی جدید

Translate Paper in English

دریافت مقالات ISI کامپیوتر

ترجمه مقالات معتبر انگلیسی

مقالات رایگان ISI کامپیوتر

فروش ترجمه انگلیسی کامپیوتر

دانلود مقاله انگلیسی رایگان

دریافت مقاله انگلیسی رایگان

خرید ترجمه انگلیسی کامپیوتر

دانلود رایگان مقاله انگلیسی

دانلود مقاله انگلیسی رایگان

مقاله انگلیسی جدید کامپیوتر

ترجمه مقاله انگلیسی کامپیوتر

Translate Article in English

دریافت مقاله انگلیسی کامپیوتر

دریافت مقاله انگلیسی با ترجمه

دانلود مقاله انگلیسی با ترجمه

ترجمه مقالات انگلیسی کامپیوتر

مقالات معتبر انگلیسی کامپیوتر

Translation of Paper in English

دانلود رایگان مقاله ISI کامپیوتر

دانلود مقالات رایگان ISI کامپیوتر

Translation of Article in English

دریافت مقاله انگلیسی جدید کامپیوتر

دانلود مقاله انگلیسی جدید کامپیوتر

ترجمه مقالات معتبر انگلیسی کامپیوتر

دانلود مقاله انگلیسی رایگان کامپیوتر

دانلود رایگان مقاله انگلیسی کامپیوتر

دریافت مقاله انگلیسی رایگان کامپیوتر

دانلود مقاله انگلیسی رایگان کامپیوتر

دریافت مقاله انگلیسی با ترجمه کامپیوتر

به سوی پایگاه داده چندگانه (اشتراکی) انعطاف پذیر و مستقل
فايل پيوست

Abstract The success of cloud computing as a platform for deploying webapplications has led to a deluge of applications characterized by small data footprints with unpredictable access patterns. A scalable multitenant ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 119500 تومان

رویکردی در ارتباط با معماری خط تولید سرویسگرا
فايل پيوست

Abstract Service-Oriented Architecture (SOA) has appeared as an emergent approach for developing distributed applications as a set of self-contained and business-aligned services. SOA aids solving integration and interoperability problems and provides ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 119500 تومان

ظرفیت شبکه های بی سیم
فايل پيوست

Abstract When n identical randomly located nodes, each capable of transmitting at W bits per second and using a fixed range, form a wireless network, the throughput (formula) obtainable by each ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 139500 تومان

سیستم های صف بندی زمان گسسته با تعطیلی های انحصاری مارکوفب
فايل پيوست

Abstract In this contribution we investigate discrete-time queueing systems with vacations. A framework is constructed that allows for studying numerous different vacation systems, including a.o. classical vacation systems like the exhaustive ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

طراحی و تحلیل یک مدل وقفه (تعطیلی) برای سیستم صف بندی دو فازه با خدمات ورودی
فايل پيوست

Abstract This paper mainly deals with a two phase service queueing model with gated service vacation. In this gated service vacation model, only those customers who are present in the queue ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

به اشتراک گذاری طیف مشارکتی بین شبکه های تلفن همراه و اد هاک
فايل پيوست

Abstract Spectrum sharing between cellular and ad-hoc networks is studied in this work. Weak signals and strong interferences at the cell-edge area usually cause severe performance degradation. To improve the cell-edge ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 139500 تومان

مقایسه پروتکل های مسیر یابی تک مسیره در مقابل پروتکل های مسیر یابی چندگانه برای انتقال تصویر در شبکه های حسگر بی سیم چند رسانه ای
فايل پيوست

Abstract Wireless multimedia sensor network (WMSN) applications require strong multimedia communication competence. Therefore, in WMSN applications, it is necessary to use specific mechanisms in order to handle multimedia communication challenges and ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

هوش کسب و کار به روش محاسبه ابری
فايل پيوست

Abstract Business Intelligence (BI) deals with integrated approaches to management support. Currently, there are constraints to BI adoption and a new era of analytic data management for business intelligence these constraints ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 119500 تومان

مدل احتمال جدید برای ضمانت کردن مشکل مسیر بحرانی با الگوریتم اکتشافی
فايل پيوست

Abstract In order to obtain an adequate description of risk aversion for insuring critical path problem, this paper develops a new class of two-stage minimum risk problems. The first-stage objective function ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

دستورالعمل طراحی و محاسبه سیستم روشنایی
فايل پيوست

 مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 119500 تومان

فایل اکسل طراحی مخزن فلزی هوایی بر اساس آیین نامه AISC با در نظر گرفتن نیروی باد و زلرله
فايل پيوست

 فایل پیش رو اکسل طراحی مخزن فلزی هوایی می باشد که بر اساس آیین نامه AISC و با در نظر گرفتن نیروی باد و زلرله محاسبات را انجام داده و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 79500 تومان

فایل اکسل تحلیل اتصال برشی دارای خروج از مرکزیت برای گروه پیچ
فايل پيوست

 این برنامه ظرفیت برشی اتصال پیچ و مهره ای دارای خروج از مرکزیت برای گروه پیچ را محاسبه می کند، ابزاری مناسب برای طراحی صفحات gusset و اتصالات پیچ و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 79500 تومان

فایل اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو و استفاده از آزمایش ظرفیت باربری کالیفرنیا
فايل پيوست

 فایل پیش رو اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو می باشد که با استفاده از نتایج آزمایش ظرفیت باربری کالیفرنیا CBR اطلاعات ورودی را تحلیل و نتایج را ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 79500 تومان

طراحی ابعاد و سازه شالوده های عمیق (شمع ها و پایه های عمیق) در خشکی
فايل پيوست

 مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 119500 تومان

تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method
فايل پيوست

 "پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش سازه" تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method   مشخصات کلی: شامل فایلهای word و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 129500 تومان

بررسی پارامترهای هندسی مهاربند زانویی
فايل پيوست

 "پروژه دانشجویی مهندسی عمران" بررسی پارامترهای هندسی مهاربند زانویی   مشخصات کلی: شامل فایلهای word و pdf بالغ بر 146 صفحه (4 فصل) فهرست مطالب فصل اول 1-1- مقدمه 1-2- شکل پذیری سازه ها 1-3- مفصل و لنگر پلاستیک 1-4- منحنی ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 129500 تومان

تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره کننده های حرارتی PCM
فايل پيوست

 "پایان نامه مهندسی مکانیک مقطع کارشناسی ارشد - گرایش تبدیل انرژی" تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره­ کننده ­های حرارتی PCM   تهیه شده بصورت کاملا انحصاری توسط ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 449000 تومان

شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه موردی پروژه های "پتروشیمی الف"
فايل پيوست

  "پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش مهندسی و مدیریت ساخت"   شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 259500 تومان

مکانیک شکست (Fracture Mechanics)
فايل پيوست

مقدمه : یکی از عمده ‌ترین مسائلی که انسان از زمان ساختن ساده‌ترین ابزارها با آن مواجه بوده است پدیده شکست در اجسام می‌باشد و درواقع برای استفاده از مواد ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 99500 تومان

ناحیه کاربری

فرمت ایمیل صحیح نمی باشد. ایمیل خود را وارد نمایید.

رمز عبور خود را وارد نمایید.

مجله اینترنتی دیتاسرا
کلیه حقوق مادی و معنوی این وبسایت متعلق به گروه نرم افزاری دیتاسرا می باشد.
ایمیل:
support.datasara[AT]gmail[دات]com

Copyright © 2025