بررسی تکنیک های خوشه بندی اسناد و مقایسه مدل های وان میسز فیشر و تخصیص پنهان دیریکله A Survey of Document Clustering Techniques & Comparison of LDA and moVMF
Abstract
This course project is mainly an overview of some widely used document clustering techniques. We begin with the basic vector space model, through its evolution, and extend to other more elaborate and statistically sound models. We compare two models in detail, the mixture of Von Mises-Fisher and Latent Dirichlet Allocation, since they have drawn wide attention in recent years due to their good performance over other models. Finally, we propose that more experiments need carrying out over multiple topic documents (or other objects).
Keywords: VSM, LSA, pLSA, K-means, Hierarchical Clustering, LDA, moVMF, Spherical Admixture Model.
چکیده فارسی
این پروژه به طور کلی به بررسی تکنیکهای خوشه بندی اسناد که به طور گسترده استفاده شده است می پردازد.ما با استفاده از مدل فضای برداری از طریق تکامل آن و گسترش به دیگر مدل های پیچیده تر و آماری صدا آغاز می کنیم. ما جزئیات دو مدل ، مخلوطی از Von Mises-Fisher (وان میسز فیشر ) و تخصیص پنهان دیریکله را از آنجاییکه در سال های اخیر توجه گسترده ای را با توجه به عملکرد خوب خود را بیش از سایر مدل ها داشته اند مقایسه می کنیم. در نهایت میبینیم آزمایشهای بیشتر نیازمند موضوع یا اشیا دیگر است.
کلمات کلیدی : ,VSM, LSA, pLSA میانگین کا، خوشه بندی مرتبه ای، تخصیص پنهان دیریکله، وان میسز فیشر, مدل ترکیب کروی

مشخصات
توسط: Yu Xiao سال انتشار: 2010 میلادی تعداد صفحات متن اصلی: 5 تعداد صفحات متن ترجمه: 6 تاریخ درج: ۱۳۹۵/۷/۳ منبع: دیتاسرا

خرید آنلاین فایل ترجمه
عنوان: بررسی تکنیک های خوشه بندی اسناد و مقایسه مدل های وان میسز فیشر و تخصیص پنهان دیریکله حجم: 198.02 کیلوبایت فرمت فایل: pdf قیمت: 99500 تومان رمز فایل (در صورت نیاز): www.datasara.com نرم افزارهای مورد نیاز: winrar - adobe acrobat - office
تنها با ارسال یک ایمیل وجه خود را دریافت نمایید

دانلود فایل اصلی
عنوان: A Survey of Document Clustering Techniques & Comparison of LDA and moVMF


پیش زمینه
امروزه اطلاعات بر روی اینترنت در حال انفجار نمایی در طول زمان است، و حدود 80٪ آن به صورت متن ذخیره شده است. بنابراین متن کاوی موضوع پرطرفداری است. یکی از زمینه های تحقیق به طور ویژه خوشه بندی اسناد است که یک موضوع عمده در جامعه بازیابی اطلاعات است. و مشخصا" برنامه های کاربردی گسترده ای در جهان واقعی است ، به طور مثال موتورهای جستجو. به طور معمول، یک موتور جستجو اغلب هزاران صفحه در پاسخ به پرس و جو گسترده را برمی گرداند و این کار را برای کاربران برای فهرست و یا برای شناسایی اطلاعات مربوطه دشوار می کند. متد خوشه بندی میتواند به صورت یک گروه خودکار برای بازیابی یک لیست از دسته های معنی دار استفاده شود به عنوان موتورهای جستجو سازمانی مانند Northern Light و Vivisimo یا نرم افزار منبع باز مانند Carrot2 . همچنین گوکل متد خوشه بندی را برای مطابقت وبسایتهای خاص همراه با پرس و جو استفاده می کند. به این صورت که از یک وب سایت می تواند به عنوان مجموعه ای از موضوعات(موضوع چند سند) ببیند و یک query از خودش یا ترکیبی از چند مبحث باشد. این به طور گسترده توسط جامعه موتورهای جستجو بهینه سازی مورد مطالعه قرار گرفته است. برای پیدا کردن یک راه برای بهینه سازی یک وب سایت، مناقصه مطلوب در کلمات کلیدی خاص تعیین می کنیم ، جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید. در نهایت، با افزایش شبکه های اجتماعی در سال های اخیر، مانند فیس بوک و توییتر، اطلاعات معنایی بیشتر در دسترس هستند و در حال حاضر مقدار قابل توجهی از اطلاعات را منتقل می کنند . با نگاهی توییتر به عنوان مثال.حدود 95M تویت در هر روز وجود دارد، که معادل 1100 توییت در هر ثانیه است. محققان از کالج کامپیوتر و اطلاع رسانی دانشگاه شمال شرق علوم و دانشکده پزشکی هاروارد راه های نوآورانه از ردیابی روحیه و خوی کشورها با استفاده از توییت را توسعه داده اند.و دو محقق دیگر CMU پست های توییتر را در نظر سنجیها یافتند. تمام این تحقیقات نشان می دهد که قدرت محاسبات اجتماعی در ارائه ارزیابی های دقیق در انواع بسیاری از مسائل، بدون تقریبا هیچ هزینه و در مقیاس بزرگ وجود دارد. به همین ترتیب، تکنیک های خوشه بندی اسناد را می توان در توییت گروه در مورد موضوعات مرتبط استفاده کرد در کمک به تابع Trends توسط توییتر. به خاطر تمام این دلایل، ما تکنیک های ارزشمند خوشه بندی اسناد را پیدا می کنیم و در نتیجه ارزش مطالعات را خواهیم دید. بقیه این مقاله به شرح زیر سازماندهی شده است.در بخش 2 مدل فضای برداری اولیه معرفی می کنیم و به محدودیت های آن می پردازیم. در بخش 3 برخی از تکنیک های کاهش ابعاد را معرفی می کنیم.در بخش 4 به مقایسه دو مدل جذاب، LDA و moVMF، در بیش از چند موضوع اسناد می پردازیم.
2- مدل فضای برداری (VSM)
2-1 پیش پردازش سند
قبل از اینکه اسناد را به عنوان بردارهای TF-IDF بازنمایی کنیم ، ما باید پیش پردازش را انجام دهیم که معمولا دو مرحله دارد:
اول ما نیاز به حذف کلمات توقف از آنجاییکه مکرر هستند و هیچ معنی ندارند مانند 'a', 'any', 'what', 'I', داریم. کلمات توقف را میتوان به صورت آنلاین یافت.
دوم، ما باید از ساقه کلمه به منشاء آن برسیم ، که بدان معنی است که ما تنها باید ریشه کلمات در نظر بگیریم. به عنوان مثال ran, running می شود و happy, happiness. معیار های خاصی وجود دارد، و الگوریتم استاندارد ریشه پورتر، که آن هم رایگان است. یک راه بیشتر استادانه درست شده با استفاده از ریشه یابی علاوه بر SU-X-stripping بوده ، همچنین گروه های کلمات synsets، و منجر به یک روش خوشه بندی سند بر پایه هستی شناسی (به جای اساس کلمه) شده است . کار مرتبط را می توان در [15] یافت.
جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.
2-2 ماتریس tf-idf :
مدل فضای برداری مدل پایه برای خوشه بندی اسناد است، که بر اساس آن بسیاری از مدل ها بر اساس پایه اصلاح می شود. ما به طور خلاصه به بررسی چند مبحث اساسی برای ارائه یک پیش زمینه کافی برای درک خوشه بندی اسناد میپردازیم.در این مدل هر سند dj برای اولین بار به عنوان یک بردار مدت - فرکانس در فضای مدت نشان داده شده است
جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.
جاییکه t fij تکرار iام مدت در سند dj ، V تعداد کل واژگان انتخاب شده و D تعداد کل اسناد در این مجموعه است. بعد، ما وزن هر ترم بر اساس فرکانس معکوس Cluster آن محاسبه می کنیم (IDF) . ایده اساسی این است که اگر یک اصطلاح غالب در تمام اسناد در یک مجموعه به نظر برسد، قدرت تبعیض آمیز خود را باید تنزیل کند. در نهایت ما باید یک بردار tf-idf برای هر سند باید در نظر بگیریم.
جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.
A Survey of Document Clustering Techniques and Comparison of LDA and moVMF
بررسی تکنیک های خوشه بندی اسناد و مقایسه مدل های وان میسز فیشر و تخصیص پنهان دیریکله
LSA
ISI
VSM
LDA
pLSA
moVMF
Paper
Papers
Article
K-means
Articles
مقاله ISI
دانلود ISI
ترجمه مقاله
ISI کامپیوتر
دریافت مقاله
Persian Paper
مقاله انگلیسی
خرید ترجمه ISI
ترجمه مقاله ISI
Persian Article
دانلود مقاله ISI
دانلود ترجمه ISI
خرید ترجمه مقاله
مقاله رایگان ISI
دانلود مقاله جدید
دریافت مقالات ISI
مقالات رایگان ISI
مقاله ISI کامپیوتر
مقاله انگلیسی جدید
خرید ترجمه انگلیسی
فروش ترجمه انگلیسی
مقاله ISI با ترجمه
ترجمه مقاله انگلیسی
دانلود مقاله انگیسی
دانلود ISI کامپیوتر
ترجمه مقاله کامپیوتر
مقالات معتبر انگلیسی
ترجمه مقالات انگلیسی
دریافت مقاله انگلیسی
دریافت مقاله کامپیوتر
دانلود مقاله جدید ISI
مقاله انگلیسی کامپیوتر
مقاله انگلیسی با ترجمه
خرید ترجمه ISI کامپیوتر
Translate English Paper
دانلود رایگان مقاله ISI
Hierarchical Clustering
دانلود مقالات رایگان ISI
ترجمه مقاله ISI کامپیوتر
Spherical Admixture Model
Translate English Article
دانلود ترجمه ISI کامپیوتر
خرید ترجمه مقاله کامپیوتر
مقاله رایگان ISI کامپیوتر
دانلود مقاله ISI با ترجمه
دانلود مقاله انگلیسی جدید
دانلود مقاله ISI کامپیوتر
دریافت مقاله انگلیسی جدید
Translate Paper in English
ترجمه مقالات معتبر انگلیسی
دریافت مقالات ISI کامپیوتر
دانلود مقاله جدید کامپیوتر
مقالات رایگان ISI کامپیوتر
مقاله ISI با ترجمه کامپیوتر
دانلود مقاله انگلیسی رایگان
دانلود رایگان مقاله انگلیسی
دانلود مقاله انگلیسی رایگان
دریافت مقاله انگلیسی رایگان
مقاله انگلیسی جدید کامپیوتر
فروش ترجمه انگلیسی کامپیوتر
خرید ترجمه انگلیسی کامپیوتر
دانلود مقاله انگیسی کامپیوتر
ترجمه مقاله انگلیسی کامپیوتر
Translate Article in English
دریافت مقاله انگلیسی کامپیوتر
دانلود مقاله انگلیسی با ترجمه
دریافت مقاله انگلیسی با ترجمه
ترجمه مقالات انگلیسی کامپیوتر
مقالات معتبر انگلیسی کامپیوتر
دانلود مقاله جدید ISI کامپیوتر
مقاله انگلیسی با ترجمه کامپیوتر
Translation of Paper in English
دانلود رایگان مقاله ISI کامپیوتر
Translation of Article in English
دانلود مقالات رایگان ISI کامپیوتر
دانلود مقاله انگلیسی جدید کامپیوتر
دانلود مقاله ISI با ترجمه کامپیوتر
دریافت مقاله انگلیسی جدید کامپیوتر
ترجمه مقالات معتبر انگلیسی کامپیوتر
دانلود مقاله انگلیسی رایگان کامپیوتر
دریافت مقاله انگلیسی رایگان کامپیوتر
دانلود رایگان مقاله انگلیسی کامپیوتر
دانلود مقاله انگلیسی رایگان کامپیوتر
دریافت مقاله انگلیسی با ترجمه کامپیوتر
دانلود مقاله انگلیسی با ترجمه کامپیوتر
به سوی پایگاه داده چندگانه (اشتراکی) انعطاف پذیر و مستقل
.png)
Abstract The success of cloud computing as a platform for deploying webapplications has led to a deluge of applications characterized by small data footprints with unpredictable access patterns. A scalable multitenant ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


رویکردی در ارتباط با معماری خط تولید سرویسگرا
.png)
Abstract Service-Oriented Architecture (SOA) has appeared as an emergent approach for developing distributed applications as a set of self-contained and business-aligned services. SOA aids solving integration and interoperability problems and provides ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


ظرفیت شبکه های بی سیم
.png)
Abstract When n identical randomly located nodes, each capable of transmitting at W bits per second and using a fixed range, form a wireless network, the throughput (formula) obtainable by each ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 139500 تومان


سیستم های صف بندی زمان گسسته با تعطیلی های انحصاری مارکوفب
.png)
Abstract In this contribution we investigate discrete-time queueing systems with vacations. A framework is constructed that allows for studying numerous different vacation systems, including a.o. classical vacation systems like the exhaustive ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


عوامل تعیینکننده در انتخاب نرمافزار وبمحور معنایی در قالب یک سرویس:
چارچوبی یکپارچه در شرایط خرید الکترونیکی و برنامه ریزی منابع سرمایه ای
.png)
Abstract The ever increasing Internet bandwidth and the fast changing needs of businesses for effectiveness with the partners in the procurement chain and is leading organizations to adopt information systems infrastructures ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


طراحی و تحلیل یک مدل وقفه (تعطیلی) برای سیستم صف بندی دو فازه با خدمات ورودی
.png)
Abstract This paper mainly deals with a two phase service queueing model with gated service vacation. In this gated service vacation model, only those customers who are present in the queue ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


به اشتراک گذاری طیف مشارکتی بین شبکه های تلفن همراه و اد هاک
.png)
Abstract Spectrum sharing between cellular and ad-hoc networks is studied in this work. Weak signals and strong interferences at the cell-edge area usually cause severe performance degradation. To improve the cell-edge ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 139500 تومان


مقایسه پروتکل های مسیر یابی تک مسیره در مقابل پروتکل های مسیر یابی چندگانه برای انتقال تصویر در شبکه های حسگر بی سیم چند رسانه ای
.png)
Abstract Wireless multimedia sensor network (WMSN) applications require strong multimedia communication competence. Therefore, in WMSN applications, it is necessary to use specific mechanisms in order to handle multimedia communication challenges and ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


هوش کسب و کار به روش محاسبه ابری
.png)
Abstract Business Intelligence (BI) deals with integrated approaches to management support. Currently, there are constraints to BI adoption and a new era of analytic data management for business intelligence these constraints ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


مدل احتمال جدید برای ضمانت کردن مشکل مسیر بحرانی با الگوریتم اکتشافی
.png)
Abstract In order to obtain an adequate description of risk aversion for insuring critical path problem, this paper develops a new class of two-stage minimum risk problems. The first-stage objective function ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


دستورالعمل طراحی و محاسبه سیستم روشنایی
.png)
مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]
قیمت: 119500 تومان
مشخصات کلی:
صفحات متن اصلی: 30
گروه:
دستورالعمل طراحی

صفحات متن اصلی: 30
گروه: دستورالعمل طراحی

فایل اکسل طراحی مخزن فلزی هوایی بر اساس آیین نامه AISC با در نظر گرفتن نیروی باد و زلرله
.png)
فایل پیش رو اکسل طراحی مخزن فلزی هوایی می باشد که بر اساس آیین نامه AISC و با در نظر گرفتن نیروی باد و زلرله محاسبات را انجام داده و ... [ ادامه مطلب ]
قیمت: 79500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

فایل اکسل تحلیل اتصال برشی دارای خروج از مرکزیت برای گروه پیچ
.png)
این برنامه ظرفیت برشی اتصال پیچ و مهره ای دارای خروج از مرکزیت برای گروه پیچ را محاسبه می کند، ابزاری مناسب برای طراحی صفحات gusset و اتصالات پیچ و ... [ ادامه مطلب ]
قیمت: 79500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

فایل اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو و استفاده از آزمایش ظرفیت باربری کالیفرنیا
.png)
فایل پیش رو اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو می باشد که با استفاده از نتایج آزمایش ظرفیت باربری کالیفرنیا CBR اطلاعات ورودی را تحلیل و نتایج را ... [ ادامه مطلب ]
قیمت: 79500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

طراحی ابعاد و سازه شالوده های عمیق (شمع ها و پایه های عمیق) در خشکی
.png)
مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]
قیمت: 119500 تومان
مشخصات کلی:
صفحات متن اصلی: 27
گروه:
دستورالعمل طراحی

صفحات متن اصلی: 27
گروه: دستورالعمل طراحی

تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method
.png)
"پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش سازه" تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method مشخصات کلی: شامل فایلهای word و ... [ ادامه مطلب ]
قیمت: 129500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

بررسی پارامترهای هندسی مهاربند زانویی
.png)
"پروژه دانشجویی مهندسی عمران" بررسی پارامترهای هندسی مهاربند زانویی مشخصات کلی: شامل فایلهای word و pdf بالغ بر 146 صفحه (4 فصل) فهرست مطالب فصل اول 1-1- مقدمه 1-2- شکل پذیری سازه ها 1-3- مفصل و لنگر پلاستیک 1-4- منحنی ... [ ادامه مطلب ]
قیمت: 129500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره کننده های حرارتی PCM
.png)
"پایان نامه مهندسی مکانیک مقطع کارشناسی ارشد - گرایش تبدیل انرژی" تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره کننده های حرارتی PCM تهیه شده بصورت کاملا انحصاری توسط ... [ ادامه مطلب ]
قیمت: 449000 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه موردی پروژه های "پتروشیمی الف"
.png)
"پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش مهندسی و مدیریت ساخت" شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه ... [ ادامه مطلب ]
قیمت: 259500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

مکانیک شکست (Fracture Mechanics)
.png)
مقدمه : یکی از عمده ترین مسائلی که انسان از زمان ساختن سادهترین ابزارها با آن مواجه بوده است پدیده شکست در اجسام میباشد و درواقع برای استفاده از مواد ... [ ادامه مطلب ]
قیمت: 99500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی
