مجله اینترنتی دیتاسرا
امروز شنبه ۱۱ مرداد ۱۴۰۴

بررسی تکنیک های خوشه بندی اسناد و مقایسه مدل های وان میسز فیشر و تخصیص پنهان دیریکله A Survey of Document Clustering Techniques & Comparison of LDA and moVMF

Abstract



This course project is mainly an overview of some widely used document clustering techniques. We begin with the basic vector space model, through its evolution, and extend to other more elaborate and statistically sound models. We compare two models in detail, the mixture of Von Mises-Fisher and Latent Dirichlet Allocation, since they have drawn wide attention in recent years due to their good performance over other models. Finally, we propose that more experiments need carrying out over multiple topic documents (or other objects).

Keywords: VSM, LSA, pLSA, K-means, Hierarchical Clustering, LDA, moVMF, Spherical Admixture Model.



چکیده فارسی



این پروژه به طور کلی به بررسی تکنیکهای خوشه بندی اسناد که به طور گسترده استفاده شده است می پردازد.ما با استفاده از مدل فضای برداری از طریق تکامل آن و گسترش به دیگر مدل های پیچیده تر و آماری صدا آغاز می کنیم. ما جزئیات  دو مدل ، مخلوطی از Von Mises-Fisher (وان میسز فیشر ) و تخصیص پنهان دیریکله را از آنجاییکه در سال های اخیر توجه گسترده ای را با توجه به عملکرد خوب خود را بیش از سایر مدل ها داشته اند مقایسه می کنیم. در نهایت میبینیم آزمایشهای بیشتر نیازمند موضوع یا اشیا دیگر است.

کلمات کلیدی : ,VSM, LSA, pLSA میانگین کا، خوشه بندی مرتبه ای، تخصیص پنهان دیریکله،  وان میسز فیشر, مدل ترکیب کروی


مشخصات

مشخصات

توسط: Yu Xiao سال انتشار: 2010 میلادی تعداد صفحات متن اصلی: 5 تعداد صفحات متن ترجمه: 6 تاریخ درج: ۱۳۹۵/۷/۳ منبع: دیتاسرا

خرید آنلاین فایل ترجمه

خرید آنلاین فایل ترجمه

عنوان: بررسی تکنیک های خوشه بندی اسناد و مقایسه مدل های وان میسز فیشر و تخصیص پنهان دیریکله حجم: 198.02 کیلوبایت فرمت فایل: pdf قیمت: 99500 تومان رمز فایل (در صورت نیاز): www.datasara.com نرم افزارهای مورد نیاز: winrar - adobe acrobat - office

در صورتی که به هر دلیل از خرید خود رضایت نداشتید
تنها با ارسال یک ایمیل وجه خود را دریافت نمایید
دانلود فایل اصلی

دانلود فایل اصلی

عنوان: A Survey of Document Clustering Techniques & Comparison of LDA and moVMF

رمز فایل
رمز فایل (در صورت نیاز): www.datasara.com
نرم افزار مورد نیاز
نرم افزارهای مورد نیاز: winrar - adobe acrobat - office

نمای مطلب

پیش زمینه



امروزه اطلاعات بر روی اینترنت در حال انفجار نمایی در طول زمان است، و حدود 80٪  آن به صورت متن ذخیره شده است. بنابراین متن کاوی موضوع پرطرفداری است. یکی از زمینه های تحقیق به طور ویژه خوشه بندی اسناد  است که یک موضوع عمده در جامعه بازیابی اطلاعات است. و مشخصا"  برنامه های کاربردی گسترده ای در جهان واقعی است ، به طور مثال موتورهای جستجو. به طور معمول، یک موتور جستجو اغلب هزاران صفحه در پاسخ به پرس و جو گسترده را برمی گرداند و این کار را برای کاربران برای فهرست و یا برای شناسایی اطلاعات مربوطه دشوار می کند. متد خوشه بندی میتواند به صورت یک گروه خودکار برای بازیابی یک لیست از دسته های معنی دار استفاده شود  به عنوان موتورهای جستجو سازمانی مانند Northern Light و Vivisimo  یا نرم افزار منبع باز مانند Carrot2 . همچنین گوکل متد خوشه بندی را برای مطابقت وبسایتهای خاص همراه با پرس و جو استفاده می کند. به این صورت که از یک وب سایت می تواند به عنوان مجموعه ای از موضوعات(موضوع چند سند) ببیند و یک query  از خودش یا ترکیبی از چند مبحث باشد. این به طور گسترده توسط جامعه موتورهای جستجو بهینه سازی مورد مطالعه قرار گرفته است. برای پیدا کردن یک راه برای بهینه سازی یک وب سایت، مناقصه مطلوب در کلمات کلیدی خاص تعیین می کنیم  ، جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید. در نهایت، با افزایش شبکه های اجتماعی در سال های اخیر، مانند فیس بوک و توییتر، اطلاعات معنایی بیشتر در دسترس هستند و در حال حاضر مقدار قابل توجهی از اطلاعات را منتقل می کنند . با نگاهی توییتر به عنوان مثال.حدود 95M تویت در هر روز وجود دارد، که معادل 1100 توییت در هر ثانیه است. محققان از کالج کامپیوتر و اطلاع رسانی دانشگاه شمال شرق علوم و دانشکده پزشکی هاروارد راه های نوآورانه از ردیابی روحیه و خوی کشورها با استفاده از توییت را توسعه داده اند.و دو محقق دیگر CMU  پست های توییتر را در نظر سنجیها یافتند. تمام این تحقیقات نشان می دهد که قدرت محاسبات اجتماعی در ارائه ارزیابی های دقیق در انواع بسیاری از مسائل، بدون تقریبا هیچ هزینه و در مقیاس بزرگ وجود دارد. به همین ترتیب، تکنیک های خوشه بندی اسناد را می توان در توییت گروه در مورد  موضوعات مرتبط استفاده کرد در کمک به تابع Trends توسط توییتر. به خاطر تمام این دلایل، ما تکنیک های  ارزشمند  خوشه بندی اسناد  را پیدا می کنیم  و در نتیجه ارزش مطالعات را خواهیم دید. بقیه این مقاله به شرح زیر سازماندهی شده است.در بخش 2 مدل فضای برداری اولیه معرفی می کنیم و به محدودیت های آن می پردازیم. در بخش 3 برخی از تکنیک های کاهش ابعاد را معرفی می کنیم.در بخش 4 به مقایسه دو مدل جذاب، LDA و moVMF، در بیش از چند موضوع اسناد می پردازیم.



2- مدل فضای برداری (VSM)



2-1 پیش پردازش سند



قبل از اینکه اسناد را به عنوان بردارهای TF-IDF بازنمایی کنیم ، ما باید پیش پردازش را انجام دهیم که معمولا دو مرحله دارد:



اول ما نیاز به حذف کلمات توقف از آنجاییکه مکرر هستند و هیچ معنی ندارند مانند 'a', 'any', 'what', 'I', داریم. کلمات توقف را میتوان به صورت آنلاین یافت.



دوم، ما باید از ساقه کلمه به منشاء آن برسیم ، که بدان معنی است که ما تنها باید ریشه کلمات در نظر بگیریم. به عنوان مثال ran, running می شود و happy, happiness. معیار های خاصی وجود دارد، و الگوریتم استاندارد ریشه پورتر، که آن هم رایگان است. یک راه بیشتر استادانه درست شده با استفاده از ریشه یابی علاوه بر SU-X-stripping  بوده ، همچنین گروه های کلمات synsets، و منجر به یک روش خوشه بندی سند بر پایه هستی شناسی (به جای اساس کلمه) شده است . کار مرتبط را می توان در [15] یافت.



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



2-2 ماتریس tf-idf :



مدل فضای برداری مدل پایه برای خوشه بندی اسناد  است، که بر اساس آن بسیاری از مدل ها  بر اساس پایه اصلاح می شود. ما به طور خلاصه به بررسی چند مبحث اساسی برای ارائه یک پیش زمینه کافی برای درک خوشه بندی اسناد میپردازیم.در این مدل هر سند dj برای اولین بار به عنوان یک بردار مدت - فرکانس در فضای مدت نشان داده شده است



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



جاییکه t fij تکرار iام مدت در سند dj ، V تعداد کل واژگان انتخاب شده و D تعداد کل اسناد در این مجموعه است. بعد، ما وزن هر ترم بر اساس فرکانس معکوس Cluster آن محاسبه می کنیم (IDF) . ایده اساسی این است که اگر یک اصطلاح غالب در تمام اسناد در یک مجموعه به نظر برسد، قدرت تبعیض آمیز خود را باید تنزیل کند. در نهایت ما باید یک بردار tf-idf برای هر سند باید در نظر بگیریم.



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.


 برچسب ها: 

A Survey of Document Clustering Techniques and Comparison of LDA and moVMF

بررسی تکنیک های خوشه بندی اسناد و مقایسه مدل های وان میسز فیشر و تخصیص پنهان دیریکله

LSA

ISI

VSM

LDA

pLSA

moVMF

Paper

Papers

Article

K-means

Articles

مقاله ISI

دانلود ISI

ترجمه مقاله

ISI کامپیوتر

دریافت مقاله

Persian Paper

مقاله انگلیسی

خرید ترجمه ISI

ترجمه مقاله ISI

Persian Article

دانلود مقاله ISI

دانلود ترجمه ISI

خرید ترجمه مقاله

مقاله رایگان ISI

دانلود مقاله جدید

دریافت مقالات ISI

مقالات رایگان ISI

مقاله ISI کامپیوتر

مقاله انگلیسی جدید

خرید ترجمه انگلیسی

فروش ترجمه انگلیسی

مقاله ISI با ترجمه

ترجمه مقاله انگلیسی

دانلود مقاله انگیسی

دانلود ISI کامپیوتر

ترجمه مقاله کامپیوتر

مقالات معتبر انگلیسی

ترجمه مقالات انگلیسی

دریافت مقاله انگلیسی

دریافت مقاله کامپیوتر

دانلود مقاله جدید ISI

مقاله انگلیسی کامپیوتر

مقاله انگلیسی با ترجمه

خرید ترجمه ISI کامپیوتر

Translate English Paper

دانلود رایگان مقاله ISI

Hierarchical Clustering

دانلود مقالات رایگان ISI

ترجمه مقاله ISI کامپیوتر

Spherical Admixture Model

Translate English Article

دانلود ترجمه ISI کامپیوتر

خرید ترجمه مقاله کامپیوتر

مقاله رایگان ISI کامپیوتر

دانلود مقاله ISI با ترجمه

دانلود مقاله انگلیسی جدید

دانلود مقاله ISI کامپیوتر

دریافت مقاله انگلیسی جدید

Translate Paper in English

ترجمه مقالات معتبر انگلیسی

دریافت مقالات ISI کامپیوتر

دانلود مقاله جدید کامپیوتر

مقالات رایگان ISI کامپیوتر

مقاله ISI با ترجمه کامپیوتر

دانلود مقاله انگلیسی رایگان

دانلود رایگان مقاله انگلیسی

دانلود مقاله انگلیسی رایگان

دریافت مقاله انگلیسی رایگان

مقاله انگلیسی جدید کامپیوتر

فروش ترجمه انگلیسی کامپیوتر

خرید ترجمه انگلیسی کامپیوتر

دانلود مقاله انگیسی کامپیوتر

ترجمه مقاله انگلیسی کامپیوتر

Translate Article in English

دریافت مقاله انگلیسی کامپیوتر

دانلود مقاله انگلیسی با ترجمه

دریافت مقاله انگلیسی با ترجمه

ترجمه مقالات انگلیسی کامپیوتر

مقالات معتبر انگلیسی کامپیوتر

دانلود مقاله جدید ISI کامپیوتر

مقاله انگلیسی با ترجمه کامپیوتر

Translation of Paper in English

دانلود رایگان مقاله ISI کامپیوتر

Translation of Article in English

دانلود مقالات رایگان ISI کامپیوتر

دانلود مقاله انگلیسی جدید کامپیوتر

دانلود مقاله ISI با ترجمه کامپیوتر

دریافت مقاله انگلیسی جدید کامپیوتر

ترجمه مقالات معتبر انگلیسی کامپیوتر

دانلود مقاله انگلیسی رایگان کامپیوتر

دریافت مقاله انگلیسی رایگان کامپیوتر

دانلود رایگان مقاله انگلیسی کامپیوتر

دانلود مقاله انگلیسی رایگان کامپیوتر

دریافت مقاله انگلیسی با ترجمه کامپیوتر

دانلود مقاله انگلیسی با ترجمه کامپیوتر

به سوی پایگاه داده چندگانه (اشتراکی) انعطاف پذیر و مستقل
فايل پيوست

Abstract The success of cloud computing as a platform for deploying webapplications has led to a deluge of applications characterized by small data footprints with unpredictable access patterns. A scalable multitenant ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 119500 تومان

رویکردی در ارتباط با معماری خط تولید سرویسگرا
فايل پيوست

Abstract Service-Oriented Architecture (SOA) has appeared as an emergent approach for developing distributed applications as a set of self-contained and business-aligned services. SOA aids solving integration and interoperability problems and provides ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 119500 تومان

ظرفیت شبکه های بی سیم
فايل پيوست

Abstract When n identical randomly located nodes, each capable of transmitting at W bits per second and using a fixed range, form a wireless network, the throughput (formula) obtainable by each ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 139500 تومان

سیستم های صف بندی زمان گسسته با تعطیلی های انحصاری مارکوفب
فايل پيوست

Abstract In this contribution we investigate discrete-time queueing systems with vacations. A framework is constructed that allows for studying numerous different vacation systems, including a.o. classical vacation systems like the exhaustive ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

طراحی و تحلیل یک مدل وقفه (تعطیلی) برای سیستم صف بندی دو فازه با خدمات ورودی
فايل پيوست

Abstract This paper mainly deals with a two phase service queueing model with gated service vacation. In this gated service vacation model, only those customers who are present in the queue ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

به اشتراک گذاری طیف مشارکتی بین شبکه های تلفن همراه و اد هاک
فايل پيوست

Abstract Spectrum sharing between cellular and ad-hoc networks is studied in this work. Weak signals and strong interferences at the cell-edge area usually cause severe performance degradation. To improve the cell-edge ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 139500 تومان

مقایسه پروتکل های مسیر یابی تک مسیره در مقابل پروتکل های مسیر یابی چندگانه برای انتقال تصویر در شبکه های حسگر بی سیم چند رسانه ای
فايل پيوست

Abstract Wireless multimedia sensor network (WMSN) applications require strong multimedia communication competence. Therefore, in WMSN applications, it is necessary to use specific mechanisms in order to handle multimedia communication challenges and ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

هوش کسب و کار به روش محاسبه ابری
فايل پيوست

Abstract Business Intelligence (BI) deals with integrated approaches to management support. Currently, there are constraints to BI adoption and a new era of analytic data management for business intelligence these constraints ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 119500 تومان

مدل احتمال جدید برای ضمانت کردن مشکل مسیر بحرانی با الگوریتم اکتشافی
فايل پيوست

Abstract In order to obtain an adequate description of risk aversion for insuring critical path problem, this paper develops a new class of two-stage minimum risk problems. The first-stage objective function ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

دستورالعمل طراحی و محاسبه سیستم روشنایی
فايل پيوست

 مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 119500 تومان

فایل اکسل طراحی مخزن فلزی هوایی بر اساس آیین نامه AISC با در نظر گرفتن نیروی باد و زلرله
فايل پيوست

 فایل پیش رو اکسل طراحی مخزن فلزی هوایی می باشد که بر اساس آیین نامه AISC و با در نظر گرفتن نیروی باد و زلرله محاسبات را انجام داده و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 79500 تومان

فایل اکسل تحلیل اتصال برشی دارای خروج از مرکزیت برای گروه پیچ
فايل پيوست

 این برنامه ظرفیت برشی اتصال پیچ و مهره ای دارای خروج از مرکزیت برای گروه پیچ را محاسبه می کند، ابزاری مناسب برای طراحی صفحات gusset و اتصالات پیچ و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 79500 تومان

فایل اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو و استفاده از آزمایش ظرفیت باربری کالیفرنیا
فايل پيوست

 فایل پیش رو اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو می باشد که با استفاده از نتایج آزمایش ظرفیت باربری کالیفرنیا CBR اطلاعات ورودی را تحلیل و نتایج را ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 79500 تومان

طراحی ابعاد و سازه شالوده های عمیق (شمع ها و پایه های عمیق) در خشکی
فايل پيوست

 مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 119500 تومان

تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method
فايل پيوست

 "پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش سازه" تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method   مشخصات کلی: شامل فایلهای word و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 129500 تومان

بررسی پارامترهای هندسی مهاربند زانویی
فايل پيوست

 "پروژه دانشجویی مهندسی عمران" بررسی پارامترهای هندسی مهاربند زانویی   مشخصات کلی: شامل فایلهای word و pdf بالغ بر 146 صفحه (4 فصل) فهرست مطالب فصل اول 1-1- مقدمه 1-2- شکل پذیری سازه ها 1-3- مفصل و لنگر پلاستیک 1-4- منحنی ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 129500 تومان

تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره کننده های حرارتی PCM
فايل پيوست

 "پایان نامه مهندسی مکانیک مقطع کارشناسی ارشد - گرایش تبدیل انرژی" تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره­ کننده ­های حرارتی PCM   تهیه شده بصورت کاملا انحصاری توسط ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 449000 تومان

شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه موردی پروژه های "پتروشیمی الف"
فايل پيوست

  "پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش مهندسی و مدیریت ساخت"   شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 259500 تومان

مکانیک شکست (Fracture Mechanics)
فايل پيوست

مقدمه : یکی از عمده ‌ترین مسائلی که انسان از زمان ساختن ساده‌ترین ابزارها با آن مواجه بوده است پدیده شکست در اجسام می‌باشد و درواقع برای استفاده از مواد ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 99500 تومان

ناحیه کاربری

فرمت ایمیل صحیح نمی باشد. ایمیل خود را وارد نمایید.

رمز عبور خود را وارد نمایید.

مجله اینترنتی دیتاسرا
کلیه حقوق مادی و معنوی این وبسایت متعلق به گروه نرم افزاری دیتاسرا می باشد.
ایمیل:
support.datasara[AT]gmail[دات]com

Copyright © 2025