طراحی و پیاده سازی خوشه بندی اسناد توزیع شده بر پایه مپ ریدوس Design and Implement of Distributed Document Clustering Based on MapReduce
Abstract
In this paper, we describe how document clustering for large collection can be efficiently implemented with MapReduce. Hadoop implementation provides a convenient and flexible framework for distributed computing on a cluster of commodity machines.
The design and implementation of tfidf and K-Means algorithm on MapReduce is presented. More importantly, we improved the efficiency and effectiveness of the algorithm. Finally, we give the results and some related discussion.
Index terms: MapReduce, tfidf, K-Means clustering
چکیده فارسی
در این مقاله ما توضیح میدهیم که خوشه بندی اسناد برای مجموعه های بزرگ بوسیله Map-Reduce چگونه میتواند به طور موثر اجرا شود. Hadoop یک چارچوب مناسب و انعطاف پذیر برای محاسبات توزیع شده خوشه ای از ماشین آلات کالا پیاده سازی و فراهم می کند. در این مقاله طراحی و پیاده سازی tfidf و الگوریتم K-Means در Map Reduce ارائه شده است. از همه مهمتر، کارایی و اثربخشی از الگوریتم بهبود یافته است و در نهایت، ما در مورد برخی نتایج بحث های مرتبطی خواهیم داشت.
واژه های مرتبط: Map-Reduce, tfidf, K-Means clustering

مشخصات
توسط: Jian Wan, Wenming Yu, and Xianghua Xu انتشارات: Academy Publisher سال انتشار: 2009 میلادی تعداد صفحات متن اصلی: 3 تعداد صفحات متن ترجمه: 8 تاریخ درج: ۱۳۹۵/۷/۷ منبع: دیتاسرا

خرید آنلاین فایل ترجمه
عنوان: طراحی و پیاده سازی خوشه بندی اسناد توزیع شده بر پایه مپ ریدوس حجم: 117.48 کیلوبایت فرمت فایل: pdf قیمت: 99500 تومان رمز فایل (در صورت نیاز): www.datasara.com نرم افزارهای مورد نیاز: winrar - adobe acrobat - office
تنها با ارسال یک ایمیل وجه خود را دریافت نمایید

دانلود فایل اصلی
عنوان: Design and Implement of Distributed Document Clustering Based on MapReduce


مقدمه
با توسعه سریع اینترنت، حجم عظیمی از اسناد باید در یک زمان کوتاه پردازش شود. تحقیق در وب کاوی در مورد روش مقیاس پذیر و قابل انطباق با اسناد جمعی تمرکز دارد [1]. ذخیره سازی و محاسبات جرم داده های اسناد در یک سیستم توزیع شده یک روش جایگزین است [2]. در محاسبات توزیع شده، مشکل تقسیم وظایف است، به طوری که هر کدام توسط یک کامپیوتر حل شود. با این حال، بسیاری از مشکلات مانند برنامه ریزی کار، تحمل خطا و ارتباط بین دستگاه برای برنامه نویسان با تجربه کم، با سیستم موازی و توزیع شده بسیار مشکل است. در این مقاله ما تجربه ها و یافته های خوشه بندی اسناد را بر اساس Map-Reduce توصیف می کنیم. Map-Reduce [3] ، یک چارچوب است که برنامه نویسان تنها نیاز به مشخص نمودن تابع Map و Reduce دارند تا وظیفه های بزرگ را به صورت موازی در مورد خوشه های بزرگ بر روی ماشین آلات کالا اجرا نمایند. در مرحله پیش پردازش سند ، ما یک الگوریتم تکرار شونده برای محاسبه وزن tfidf در Map-Reduce به منظور ارزیابی مهم بودن یک دوره برای یک سند در یک مجموعه طراحی میکنیم. سپس یک Mean Cluster در Map Reduce اجرا می شود تا تمام اسناد رو به k خوشه تقسیم کند که هر سند متعلق به یک خوشه با همین معنا است. از همه مهمتر، در می یابیم که نادیده گرفتن شرایط با بالاترین فرکانس سند نمی تواند سرعت الگوریتم ما در Map-Reduce را بهبود ببخشد ، اما دقت خوشه سند را کمی بهبود می بخشد. آزمایش نشان می دهد که روش مار رشد تقریبا خطی در زمان مورد نیاز در حال اجرا با افزایش اندازه مجموعه برای مجموعه های حاوی چند ده هزار سند خواهد داشت.
II. Map Reduce و Hadoop
بسیاری از وظایف در دنیای واقعی دارای همان ویژگی ها است :
تعداد زیادی از سوابق برای تولید نتایج نسبی که هر کدام از بعضی روشها جمع آوری شده اند محاسبه شده اند. Map-Reduce یک مدل برنامه نویسی است که متخصص در مشکلات توزیعی ساختار " Divide and Conquer " است. Map-Reduce با الهام از زبان یک زبان تابعی شامل Map و Reduce و مفاهیم انتزاعی کار می کند. تابع Map هر رکورد منطقی را در ورودی خودمان با مجموعه ای از جفت کلید های میانی / با ارزش محاسبه کرده و تابع Reduce یک کلید میانی و مجموعه ای از ارزش ها برای کلید به منظور ترکیب اطلاعات به دست آمده مناسب را می پذیرد.
شکل 1 دو مرحله پردازش را نشان می دهد.
جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.
Apache Hadoop[4] ، یک چارچوب نرم افزار جاوا است که شامل یک مدل Map-Reduce و یک فایل سیستم توزیع شده است (HDFS شبیه به GFS[5]). HDFS برای ذخیره سازی به مقیاس انبوه در سراسر دستگاه های متعدد طراحی شده است و به صورت شفاف خواندن / نوشتن و تهیه نسخه پشتیبان و fault tolerance را برای کاربران فراهم می کند. Hadoop به طور فزاینده ای در حال محبوب شدن است [6,7] چرا که جزییات بهم ریخته موازی سازی ، تحمل خطا، توزیع داده ها و حفظ تعادل بار را پنهان می کند.
III. محاسبه TFIDF در MAP-REDUCE
وزن tfidf [8] (مدت فرکانس سند فرکانس معکوس) اغلب در متن استخراج معدن و بازیابی اطلاعات استفاده می شود. اهمیت یک دوره متناسب با تعداد دفعاتی که یک واژه در سند ظاهر می شود افزایش می یابد اما توسط فرکانس از این کلمه در مجموعه خنثی می شود. بنابراین وزن قابلیت واژه در مجموعه را می توان با استفاده از طرح tfidf کلاسیک در فرمول محاسبه کرد[1].
جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.
fij ویژگی دوره فرکانس ti در سند dj است. این موضوع میتواند به وسیله |ti|/|dj| تعیین شده باشد که در آن تعداد تکرار دوره ti در سند dj مجموع ترمهای سند dj است. N مجموع سندهای نوشته شده و ni مجموع سندهایی شامل ترم ti است.ما میتوانیم این فرمول را [1] زمانی که باید |ti|و|dj|وni برای دریافت tfidf در Map-Reduce محاسبه کنیم ببینیم.
1) مجموع زمانی که به نظر میرسد به یک دوره ti در یک سند داده شده :
فرمت داده های ورودی به تابع Map به صورت (نام سند ، محتوا) است، به این معنی که نام سند مهم و مرتبط با محتوای ارزش است. برای هر ترم در سند، خروجی تابع Map ((مدت، نام سند)،1) است که به معنی مدت تکرار یک زمان در این سند است. تابع Reduce خروجی تابع Map قبلی را می پذیرد و با رکوردهای همان کلید جمع می کند.خروجی فرمت تابع Reduce به صورت (مدت،نام سند ، |ti|) است. در عمل، ما می توانیم یک تابع ترکیب برای سرعت بخشیدن به سرعت محاسبات اضافه کنیم. این تابع از تابع ترکیب همان تابع Reduce است.
2) تعداد ترمها در هر سند :
در این مرحله داده های ورودی ، داده های خروجی مرحله قبل است و تابع Map آنها را به فرمت (نام سند،(دوره،|ti|)) تبدیل می کند. تابع Reduce رکوردهای به اشتراک گذاشته شده با همان نام سند را گرفته و روی هم شماره ترمهای مختلف |ti|به |tj| را در همان سند انباشته می کند. خروجی این مرحله به صورت ( (دوره،نام سند)،(|ti|،|tj|)) خواهد بود.
3) تعداد اسناد ظاهر شده ترم |ti|:
تابع Map در این مرحله خروجی مرحله بالا را به فرمت (دوره،(نام سند،|ti|،|dj|،1)) تبدیل کرده که به این معنی است که این ترم دریک سند به نظر برسد.تابع Reduce "1" ها را در همان ترم ni به روی هم انباشته می کند. این تعداد اسناد شامل ترم ti میشود. خروجی این مرحله به صورت ((دوره،نام سند،(|ti|،|dj|،ni)) است.
4) محاسبه tfidf :
جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.
IV. خوشه بندی K-Means
خوشه بندی K-Means [9] k نقطه آغازین را انتخاب کرده و هر کدام را به عنوان نقطه میانی مجموعه K علامت گذاری می کنیم. سپس برای هر عنصر در تمام مجموعه داده ها که مجموعه داده های k به آن نزدیکتر است. سپس میانگین مرکز هر مجموعه را به وسیله نقاطی که به مجموعه نزدیکتر هستند پیدا می کنیم. با مجموعه ای جدید از مراکز (مرکز جرم)، این الگوریتم را تکرار می کنیم تا زمانی که همگرایی به اتمام برسد.
جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.
Design and Implement of Distributed Document Clustering Based on MapReduce
طراحی و پیاده سازی خوشه بندی اسناد توزیع شده بر پایه مپ ریدوس
ISI
tfidf
Paper
Papers
Article
Articles
مقاله ISI
MapReduce
دانلود ISI
ترجمه مقاله
دریافت مقاله
ISI کامپیوتر
مقاله انگلیسی
Persian Paper
خرید ترجمه ISI
Persian Article
ترجمه مقاله ISI
دانلود مقاله ISI
خرید ترجمه مقاله
دانلود ترجمه ISI
مقاله رایگان ISI
دانلود مقاله جدید
مقالات رایگان ISI
دریافت مقالات ISI
مقاله انگلیسی جدید
خرید ترجمه انگلیسی
فروش ترجمه انگلیسی
مقاله ISI با ترجمه
K-Means clustering
مقاله ISI کامپیوتر
دانلود ISI کامپیوتر
ترجمه مقاله انگلیسی
دانلود مقاله انگیسی
دریافت مقاله انگلیسی
ترجمه مقالات انگلیسی
ترجمه مقاله کامپیوتر
مقالات معتبر انگلیسی
دانلود مقاله جدید ISI
دریافت مقاله کامپیوتر
مقاله انگلیسی با ترجمه
مقاله انگلیسی کامپیوتر
دانلود رایگان مقاله ISI
Translate English Paper
خرید ترجمه ISI کامپیوتر
ترجمه مقاله ISI کامپیوتر
دانلود مقالات رایگان ISI
خرید ترجمه مقاله کامپیوتر
دانلود مقاله انگلیسی جدید
مقاله رایگان ISI کامپیوتر
دانلود ترجمه ISI کامپیوتر
Translate English Article
دانلود مقاله ISI کامپیوتر
دانلود مقاله ISI با ترجمه
دریافت مقاله انگلیسی جدید
Translate Paper in English
ترجمه مقالات معتبر انگلیسی
دریافت مقالات ISI کامپیوتر
دانلود مقاله جدید کامپیوتر
مقالات رایگان ISI کامپیوتر
دانلود رایگان مقاله انگلیسی
دانلود مقاله انگلیسی رایگان
دانلود مقاله انگلیسی رایگان
دریافت مقاله انگلیسی رایگان
خرید ترجمه انگلیسی کامپیوتر
فروش ترجمه انگلیسی کامپیوتر
مقاله ISI با ترجمه کامپیوتر
مقاله انگلیسی جدید کامپیوتر
دانلود مقاله انگیسی کامپیوتر
Translate Article in English
ترجمه مقاله انگلیسی کامپیوتر
دانلود مقاله انگلیسی با ترجمه
دریافت مقاله انگلیسی با ترجمه
مقالات معتبر انگلیسی کامپیوتر
دریافت مقاله انگلیسی کامپیوتر
ترجمه مقالات انگلیسی کامپیوتر
دانلود مقاله جدید ISI کامپیوتر
Translation of Paper in English
مقاله انگلیسی با ترجمه کامپیوتر
دانلود رایگان مقاله ISI کامپیوتر
دانلود مقالات رایگان ISI کامپیوتر
Translation of Article in English
دریافت مقاله انگلیسی جدید کامپیوتر
دانلود مقاله ISI با ترجمه کامپیوتر
دانلود مقاله انگلیسی جدید کامپیوتر
ترجمه مقالات معتبر انگلیسی کامپیوتر
دانلود مقاله انگلیسی رایگان کامپیوتر
دانلود رایگان مقاله انگلیسی کامپیوتر
دانلود مقاله انگلیسی رایگان کامپیوتر
دریافت مقاله انگلیسی رایگان کامپیوتر
دانلود مقاله انگلیسی با ترجمه کامپیوتر
دریافت مقاله انگلیسی با ترجمه کامپیوتر
به سوی پایگاه داده چندگانه (اشتراکی) انعطاف پذیر و مستقل
.png)
Abstract The success of cloud computing as a platform for deploying webapplications has led to a deluge of applications characterized by small data footprints with unpredictable access patterns. A scalable multitenant ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


رویکردی در ارتباط با معماری خط تولید سرویسگرا
.png)
Abstract Service-Oriented Architecture (SOA) has appeared as an emergent approach for developing distributed applications as a set of self-contained and business-aligned services. SOA aids solving integration and interoperability problems and provides ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


ظرفیت شبکه های بی سیم
.png)
Abstract When n identical randomly located nodes, each capable of transmitting at W bits per second and using a fixed range, form a wireless network, the throughput (formula) obtainable by each ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 139500 تومان


سیستم های صف بندی زمان گسسته با تعطیلی های انحصاری مارکوفب
.png)
Abstract In this contribution we investigate discrete-time queueing systems with vacations. A framework is constructed that allows for studying numerous different vacation systems, including a.o. classical vacation systems like the exhaustive ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


عوامل تعیینکننده در انتخاب نرمافزار وبمحور معنایی در قالب یک سرویس:
چارچوبی یکپارچه در شرایط خرید الکترونیکی و برنامه ریزی منابع سرمایه ای
.png)
Abstract The ever increasing Internet bandwidth and the fast changing needs of businesses for effectiveness with the partners in the procurement chain and is leading organizations to adopt information systems infrastructures ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


طراحی و تحلیل یک مدل وقفه (تعطیلی) برای سیستم صف بندی دو فازه با خدمات ورودی
.png)
Abstract This paper mainly deals with a two phase service queueing model with gated service vacation. In this gated service vacation model, only those customers who are present in the queue ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


به اشتراک گذاری طیف مشارکتی بین شبکه های تلفن همراه و اد هاک
.png)
Abstract Spectrum sharing between cellular and ad-hoc networks is studied in this work. Weak signals and strong interferences at the cell-edge area usually cause severe performance degradation. To improve the cell-edge ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 139500 تومان


مقایسه پروتکل های مسیر یابی تک مسیره در مقابل پروتکل های مسیر یابی چندگانه برای انتقال تصویر در شبکه های حسگر بی سیم چند رسانه ای
.png)
Abstract Wireless multimedia sensor network (WMSN) applications require strong multimedia communication competence. Therefore, in WMSN applications, it is necessary to use specific mechanisms in order to handle multimedia communication challenges and ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


هوش کسب و کار به روش محاسبه ابری
.png)
Abstract Business Intelligence (BI) deals with integrated approaches to management support. Currently, there are constraints to BI adoption and a new era of analytic data management for business intelligence these constraints ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 119500 تومان


مدل احتمال جدید برای ضمانت کردن مشکل مسیر بحرانی با الگوریتم اکتشافی
.png)
Abstract In order to obtain an adequate description of risk aversion for insuring critical path problem, this paper develops a new class of two-stage minimum risk problems. The first-stage objective function ... [ ادامه مطلب ]
انتشارات: ACM
قیمت: 129500 تومان


دستورالعمل طراحی و محاسبه سیستم روشنایی
.png)
مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]
قیمت: 119500 تومان
مشخصات کلی:
صفحات متن اصلی: 30
گروه:
دستورالعمل طراحی

صفحات متن اصلی: 30
گروه: دستورالعمل طراحی

فایل اکسل طراحی مخزن فلزی هوایی بر اساس آیین نامه AISC با در نظر گرفتن نیروی باد و زلرله
.png)
فایل پیش رو اکسل طراحی مخزن فلزی هوایی می باشد که بر اساس آیین نامه AISC و با در نظر گرفتن نیروی باد و زلرله محاسبات را انجام داده و ... [ ادامه مطلب ]
قیمت: 79500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

فایل اکسل تحلیل اتصال برشی دارای خروج از مرکزیت برای گروه پیچ
.png)
این برنامه ظرفیت برشی اتصال پیچ و مهره ای دارای خروج از مرکزیت برای گروه پیچ را محاسبه می کند، ابزاری مناسب برای طراحی صفحات gusset و اتصالات پیچ و ... [ ادامه مطلب ]
قیمت: 79500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

فایل اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو و استفاده از آزمایش ظرفیت باربری کالیفرنیا
.png)
فایل پیش رو اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو می باشد که با استفاده از نتایج آزمایش ظرفیت باربری کالیفرنیا CBR اطلاعات ورودی را تحلیل و نتایج را ... [ ادامه مطلب ]
قیمت: 79500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

طراحی ابعاد و سازه شالوده های عمیق (شمع ها و پایه های عمیق) در خشکی
.png)
مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]
قیمت: 119500 تومان
مشخصات کلی:
صفحات متن اصلی: 27
گروه:
دستورالعمل طراحی

صفحات متن اصلی: 27
گروه: دستورالعمل طراحی

تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method
.png)
"پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش سازه" تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method مشخصات کلی: شامل فایلهای word و ... [ ادامه مطلب ]
قیمت: 129500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

بررسی پارامترهای هندسی مهاربند زانویی
.png)
"پروژه دانشجویی مهندسی عمران" بررسی پارامترهای هندسی مهاربند زانویی مشخصات کلی: شامل فایلهای word و pdf بالغ بر 146 صفحه (4 فصل) فهرست مطالب فصل اول 1-1- مقدمه 1-2- شکل پذیری سازه ها 1-3- مفصل و لنگر پلاستیک 1-4- منحنی ... [ ادامه مطلب ]
قیمت: 129500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره کننده های حرارتی PCM
.png)
"پایان نامه مهندسی مکانیک مقطع کارشناسی ارشد - گرایش تبدیل انرژی" تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره کننده های حرارتی PCM تهیه شده بصورت کاملا انحصاری توسط ... [ ادامه مطلب ]
قیمت: 449000 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه موردی پروژه های "پتروشیمی الف"
.png)
"پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش مهندسی و مدیریت ساخت" شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه ... [ ادامه مطلب ]
قیمت: 259500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی

مکانیک شکست (Fracture Mechanics)
.png)
مقدمه : یکی از عمده ترین مسائلی که انسان از زمان ساختن سادهترین ابزارها با آن مواجه بوده است پدیده شکست در اجسام میباشد و درواقع برای استفاده از مواد ... [ ادامه مطلب ]
قیمت: 99500 تومان
مشخصات کلی:
گروه:
دستورالعمل طراحی

گروه: دستورالعمل طراحی
