مجله اینترنتی دیتاسرا
امروز جمعه ۱۰ مرداد ۱۴۰۴

طراحی و پیاده سازی خوشه بندی اسناد توزیع شده بر پایه مپ ریدوس Design and Implement of Distributed Document Clustering Based on MapReduce

Abstract



In this paper, we describe how document clustering for large collection can be efficiently implemented with MapReduce. Hadoop implementation provides a convenient and flexible framework for distributed computing on a cluster of commodity machines.

The design and implementation of tfidf and K-Means algorithm on MapReduce is presented. More importantly, we improved the efficiency and effectiveness of the algorithm. Finally, we give the results and some related discussion.



Index terms: MapReduce, tfidf, K-Means clustering



چکیده فارسی



در این مقاله ما توضیح میدهیم که خوشه بندی اسناد برای مجموعه های بزرگ بوسیله Map-Reduce چگونه میتواند به طور موثر اجرا شود. Hadoop یک چارچوب مناسب و انعطاف پذیر برای محاسبات توزیع شده  خوشه ای از ماشین آلات کالا پیاده سازی و فراهم می کند. در این مقاله طراحی و پیاده سازی tfidf  و الگوریتم K-Means در Map Reduce ارائه شده است. از همه مهمتر، کارایی و اثربخشی از الگوریتم بهبود یافته است و در نهایت، ما در مورد برخی نتایج بحث های مرتبطی خواهیم داشت.



واژه های مرتبط:  Map-Reduce, tfidf, K-Means clustering


مشخصات

مشخصات

توسط: Jian Wan, Wenming Yu, and Xianghua Xu انتشارات: Academy Publisher سال انتشار: 2009 میلادی تعداد صفحات متن اصلی: 3 تعداد صفحات متن ترجمه: 8 تاریخ درج: ۱۳۹۵/۷/۷ منبع: دیتاسرا

خرید آنلاین فایل ترجمه

خرید آنلاین فایل ترجمه

عنوان: طراحی و پیاده سازی خوشه بندی اسناد توزیع شده بر پایه مپ ریدوس حجم: 117.48 کیلوبایت فرمت فایل: pdf قیمت: 99500 تومان رمز فایل (در صورت نیاز): www.datasara.com نرم افزارهای مورد نیاز: winrar - adobe acrobat - office

در صورتی که به هر دلیل از خرید خود رضایت نداشتید
تنها با ارسال یک ایمیل وجه خود را دریافت نمایید
دانلود فایل اصلی

دانلود فایل اصلی

عنوان: Design and Implement of Distributed Document Clustering Based on MapReduce

رمز فایل
رمز فایل (در صورت نیاز): www.datasara.com
نرم افزار مورد نیاز
نرم افزارهای مورد نیاز: winrar - adobe acrobat - office

نمای مطلب

مقدمه



با توسعه سریع اینترنت، حجم عظیمی از اسناد باید در یک زمان کوتاه پردازش شود. تحقیق در وب کاوی در مورد  روش مقیاس پذیر و قابل انطباق با اسناد جمعی تمرکز دارد [1]. ذخیره سازی و محاسبات جرم داده های اسناد در یک سیستم توزیع شده یک روش جایگزین است [2]. در محاسبات توزیع شده، مشکل تقسیم وظایف است، به طوری که هر کدام توسط یک کامپیوتر حل شود. با این حال، بسیاری از مشکلات مانند برنامه ریزی کار، تحمل خطا و ارتباط بین دستگاه برای برنامه نویسان با تجربه کم، با سیستم موازی و توزیع شده بسیار مشکل است. در این مقاله ما تجربه ها و یافته های خوشه بندی اسناد را بر اساس  Map-Reduce توصیف می کنیم. Map-Reduce [3] ، یک چارچوب است که برنامه نویسان تنها نیاز به مشخص نمودن تابع Map  و Reduce  دارند تا وظیفه های بزرگ را به صورت موازی در مورد خوشه های بزرگ بر روی ماشین آلات کالا اجرا نمایند. در مرحله پیش پردازش سند ، ما یک الگوریتم تکرار شونده برای محاسبه وزن tfidf در Map-Reduce  به منظور ارزیابی مهم بودن یک دوره برای  یک سند در یک مجموعه طراحی میکنیم. سپس یک Mean Cluster در Map Reduce اجرا می شود تا تمام اسناد رو به k خوشه تقسیم کند که هر سند متعلق به یک خوشه با همین معنا است. از همه مهمتر، در می یابیم که نادیده گرفتن شرایط با بالاترین فرکانس سند نمی تواند سرعت الگوریتم ما در Map-Reduce را بهبود ببخشد ، اما دقت خوشه سند را کمی بهبود می بخشد. آزمایش نشان می دهد که روش مار رشد تقریبا خطی  در زمان مورد نیاز در حال اجرا  با افزایش اندازه مجموعه برای مجموعه های حاوی  چند ده هزار سند خواهد داشت.



II. Map Reduce و Hadoop



بسیاری از وظایف در دنیای واقعی دارای همان ویژگی ها است :



تعداد زیادی از سوابق برای تولید نتایج نسبی که هر کدام از بعضی روشها جمع آوری شده اند محاسبه شده اند. Map-Reduce یک مدل برنامه نویسی است که متخصص در مشکلات توزیعی ساختار " Divide and Conquer "  است. Map-Reduce با الهام از زبان یک زبان تابعی شامل Map و Reduce  و مفاهیم انتزاعی کار می کند. تابع Map هر رکورد منطقی را در ورودی خودمان با مجموعه ای از جفت کلید های میانی ​​/ با ارزش محاسبه کرده و تابع Reduce یک کلید میانی و مجموعه ای از ارزش ها برای کلید به منظور ترکیب اطلاعات به دست آمده مناسب را می پذیرد.



شکل 1 دو مرحله پردازش را نشان می دهد.



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



Apache Hadoop[4] ،  یک چارچوب نرم افزار جاوا است که شامل یک مدل Map-Reduce  و یک فایل سیستم توزیع شده است (HDFS  شبیه به GFS[5]).  HDFS  برای ذخیره سازی به مقیاس انبوه در سراسر دستگاه های متعدد طراحی شده است و به صورت شفاف خواندن / نوشتن و تهیه نسخه پشتیبان و fault tolerance را برای کاربران فراهم می کند. Hadoop به طور فزاینده ای در حال محبوب شدن است [6,7] چرا که جزییات بهم ریخته موازی سازی ، تحمل خطا، توزیع داده ها و حفظ تعادل بار را پنهان می کند.



III. محاسبه TFIDF در   MAP-REDUCE



وزن tfidf[8] (مدت فرکانس سند فرکانس معکوس) اغلب در متن استخراج معدن و بازیابی اطلاعات استفاده می شود. اهمیت یک دوره متناسب با تعداد دفعاتی که یک واژه در سند ظاهر می شود  افزایش می یابد   اما توسط فرکانس از این کلمه در مجموعه خنثی می شود. بنابراین وزن قابلیت واژه در مجموعه را می توان با استفاده از طرح tfidf  کلاسیک در فرمول محاسبه کرد[1].                        



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



fij  ویژگی دوره فرکانس ti در سند dj است. این موضوع میتواند به وسیله |ti|/|dj| تعیین شده باشد که در آن تعداد تکرار دوره ti در سند dj مجموع ترمهای سند dj است. N مجموع سندهای نوشته شده و ni مجموع سندهایی شامل ترم ti است.ما میتوانیم این فرمول را [1] زمانی که باید |ti|و|dj|وni برای دریافت tfidf در Map-Reduce محاسبه کنیم ببینیم.



1)  مجموع زمانی که به نظر میرسد به یک دوره ti در یک سند داده شده :



فرمت داده های ورودی به تابع Map به صورت (نام سند ، محتوا) است، به این معنی که نام سند مهم و مرتبط با محتوای ارزش است. برای هر ترم در سند، خروجی تابع Map ((مدت، نام سند)،1) است که به معنی مدت تکرار یک زمان در این سند است. تابع Reduce خروجی تابع Map قبلی را می پذیرد و با رکوردهای همان کلید جمع می کند.خروجی فرمت تابع Reduce به صورت (مدت،نام سند ، |ti|) است. در عمل، ما می توانیم یک تابع ترکیب برای سرعت بخشیدن به سرعت محاسبات اضافه کنیم.  این تابع از تابع ترکیب همان تابع Reduce است.



2) تعداد ترمها در هر سند :



در این مرحله داده های ورودی ، داده های خروجی مرحله قبل است و تابع Map آنها را به فرمت (نام سند،(دوره،|ti|)) تبدیل می کند. تابع Reduce رکوردهای به اشتراک گذاشته شده با همان نام سند را گرفته و روی هم شماره ترمهای مختلف |ti|به |tj| را در همان سند انباشته می کند. خروجی این مرحله به صورت ( (دوره،نام سند)،(|ti|،|tj|)) خواهد بود.



3) تعداد اسناد ظاهر شده ترم |ti|:



تابع Map در این مرحله خروجی مرحله بالا را به فرمت (دوره،(نام سند،|ti|،|dj|،1)) تبدیل کرده که به این معنی است که این ترم دریک سند  به نظر برسد.تابع Reduce "1" ها را در همان ترم ni  به روی هم انباشته می کند. این تعداد اسناد شامل ترم ti میشود. خروجی این مرحله به صورت ((دوره،نام سند،(|ti|،|dj|،ni)) است.



4) محاسبه tfidf :



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.



IV. خوشه بندی K-Means



خوشه بندی K-Means [9] k نقطه آغازین را انتخاب کرده و هر کدام را به عنوان نقطه میانی مجموعه K علامت گذاری می کنیم. سپس برای هر عنصر در تمام مجموعه داده ها  که مجموعه داده های k به آن نزدیکتر است. سپس میانگین مرکز هر مجموعه را به وسیله نقاطی که به مجموعه نزدیکتر هستند پیدا می کنیم. با مجموعه ای جدید از مراکز (مرکز جرم)، این الگوریتم را تکرار می کنیم تا زمانی که همگرایی به اتمام برسد.



جهت مشاهده متن کامل، فایل ترجمه را دانلود نمایید.


 برچسب ها: 

Design and Implement of Distributed Document Clustering Based on MapReduce

طراحی و پیاده سازی خوشه بندی اسناد توزیع شده بر پایه مپ ریدوس

ISI

tfidf

Paper

Papers

Article

Articles

مقاله ISI

MapReduce

دانلود ISI

ترجمه مقاله

دریافت مقاله

ISI کامپیوتر

مقاله انگلیسی

Persian Paper

خرید ترجمه ISI

Persian Article

ترجمه مقاله ISI

دانلود مقاله ISI

خرید ترجمه مقاله

دانلود ترجمه ISI

مقاله رایگان ISI

دانلود مقاله جدید

مقالات رایگان ISI

دریافت مقالات ISI

مقاله انگلیسی جدید

خرید ترجمه انگلیسی

فروش ترجمه انگلیسی

مقاله ISI با ترجمه

K-Means clustering

مقاله ISI کامپیوتر

دانلود ISI کامپیوتر

ترجمه مقاله انگلیسی

دانلود مقاله انگیسی

دریافت مقاله انگلیسی

ترجمه مقالات انگلیسی

ترجمه مقاله کامپیوتر

مقالات معتبر انگلیسی

دانلود مقاله جدید ISI

دریافت مقاله کامپیوتر

مقاله انگلیسی با ترجمه

مقاله انگلیسی کامپیوتر

دانلود رایگان مقاله ISI

Translate English Paper

خرید ترجمه ISI کامپیوتر

ترجمه مقاله ISI کامپیوتر

دانلود مقالات رایگان ISI

خرید ترجمه مقاله کامپیوتر

دانلود مقاله انگلیسی جدید

مقاله رایگان ISI کامپیوتر

دانلود ترجمه ISI کامپیوتر

Translate English Article

دانلود مقاله ISI کامپیوتر

دانلود مقاله ISI با ترجمه

دریافت مقاله انگلیسی جدید

Translate Paper in English

ترجمه مقالات معتبر انگلیسی

دریافت مقالات ISI کامپیوتر

دانلود مقاله جدید کامپیوتر

مقالات رایگان ISI کامپیوتر

دانلود رایگان مقاله انگلیسی

دانلود مقاله انگلیسی رایگان

دانلود مقاله انگلیسی رایگان

دریافت مقاله انگلیسی رایگان

خرید ترجمه انگلیسی کامپیوتر

فروش ترجمه انگلیسی کامپیوتر

مقاله ISI با ترجمه کامپیوتر

مقاله انگلیسی جدید کامپیوتر

دانلود مقاله انگیسی کامپیوتر

Translate Article in English

ترجمه مقاله انگلیسی کامپیوتر

دانلود مقاله انگلیسی با ترجمه

دریافت مقاله انگلیسی با ترجمه

مقالات معتبر انگلیسی کامپیوتر

دریافت مقاله انگلیسی کامپیوتر

ترجمه مقالات انگلیسی کامپیوتر

دانلود مقاله جدید ISI کامپیوتر

Translation of Paper in English

مقاله انگلیسی با ترجمه کامپیوتر

دانلود رایگان مقاله ISI کامپیوتر

دانلود مقالات رایگان ISI کامپیوتر

Translation of Article in English

دریافت مقاله انگلیسی جدید کامپیوتر

دانلود مقاله ISI با ترجمه کامپیوتر

دانلود مقاله انگلیسی جدید کامپیوتر

ترجمه مقالات معتبر انگلیسی کامپیوتر

دانلود مقاله انگلیسی رایگان کامپیوتر

دانلود رایگان مقاله انگلیسی کامپیوتر

دانلود مقاله انگلیسی رایگان کامپیوتر

دریافت مقاله انگلیسی رایگان کامپیوتر

دانلود مقاله انگلیسی با ترجمه کامپیوتر

دریافت مقاله انگلیسی با ترجمه کامپیوتر

به سوی پایگاه داده چندگانه (اشتراکی) انعطاف پذیر و مستقل
فايل پيوست

Abstract The success of cloud computing as a platform for deploying webapplications has led to a deluge of applications characterized by small data footprints with unpredictable access patterns. A scalable multitenant ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 119500 تومان

رویکردی در ارتباط با معماری خط تولید سرویسگرا
فايل پيوست

Abstract Service-Oriented Architecture (SOA) has appeared as an emergent approach for developing distributed applications as a set of self-contained and business-aligned services. SOA aids solving integration and interoperability problems and provides ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 119500 تومان

ظرفیت شبکه های بی سیم
فايل پيوست

Abstract When n identical randomly located nodes, each capable of transmitting at W bits per second and using a fixed range, form a wireless network, the throughput (formula) obtainable by each ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 139500 تومان

سیستم های صف بندی زمان گسسته با تعطیلی های انحصاری مارکوفب
فايل پيوست

Abstract In this contribution we investigate discrete-time queueing systems with vacations. A framework is constructed that allows for studying numerous different vacation systems, including a.o. classical vacation systems like the exhaustive ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

طراحی و تحلیل یک مدل وقفه (تعطیلی) برای سیستم صف بندی دو فازه با خدمات ورودی
فايل پيوست

Abstract This paper mainly deals with a two phase service queueing model with gated service vacation. In this gated service vacation model, only those customers who are present in the queue ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

به اشتراک گذاری طیف مشارکتی بین شبکه های تلفن همراه و اد هاک
فايل پيوست

Abstract Spectrum sharing between cellular and ad-hoc networks is studied in this work. Weak signals and strong interferences at the cell-edge area usually cause severe performance degradation. To improve the cell-edge ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 139500 تومان

مقایسه پروتکل های مسیر یابی تک مسیره در مقابل پروتکل های مسیر یابی چندگانه برای انتقال تصویر در شبکه های حسگر بی سیم چند رسانه ای
فايل پيوست

Abstract Wireless multimedia sensor network (WMSN) applications require strong multimedia communication competence. Therefore, in WMSN applications, it is necessary to use specific mechanisms in order to handle multimedia communication challenges and ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

هوش کسب و کار به روش محاسبه ابری
فايل پيوست

Abstract Business Intelligence (BI) deals with integrated approaches to management support. Currently, there are constraints to BI adoption and a new era of analytic data management for business intelligence these constraints ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 119500 تومان

مدل احتمال جدید برای ضمانت کردن مشکل مسیر بحرانی با الگوریتم اکتشافی
فايل پيوست

Abstract In order to obtain an adequate description of risk aversion for insuring critical path problem, this paper develops a new class of two-stage minimum risk problems. The first-stage objective function ... [ ادامه مطلب ]

انتشارات: ACM
پرداخت و دانلود قیمت: 129500 تومان

دستورالعمل طراحی و محاسبه سیستم روشنایی
فايل پيوست

 مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 119500 تومان

فایل اکسل طراحی مخزن فلزی هوایی بر اساس آیین نامه AISC با در نظر گرفتن نیروی باد و زلرله
فايل پيوست

 فایل پیش رو اکسل طراحی مخزن فلزی هوایی می باشد که بر اساس آیین نامه AISC و با در نظر گرفتن نیروی باد و زلرله محاسبات را انجام داده و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 79500 تومان

فایل اکسل تحلیل اتصال برشی دارای خروج از مرکزیت برای گروه پیچ
فايل پيوست

 این برنامه ظرفیت برشی اتصال پیچ و مهره ای دارای خروج از مرکزیت برای گروه پیچ را محاسبه می کند، ابزاری مناسب برای طراحی صفحات gusset و اتصالات پیچ و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 79500 تومان

فایل اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو و استفاده از آزمایش ظرفیت باربری کالیفرنیا
فايل پيوست

 فایل پیش رو اکسل طراحی روسازی آسفالتی بر مبنای آیین نامه آشتو می باشد که با استفاده از نتایج آزمایش ظرفیت باربری کالیفرنیا CBR اطلاعات ورودی را تحلیل و نتایج را ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 79500 تومان

طراحی ابعاد و سازه شالوده های عمیق (شمع ها و پایه های عمیق) در خشکی
فايل پيوست

 مجموعه دستورالعمل های ارائه شده در دیتاسرا شامل ضوابط و مراحل تحلیل و طراحی سازه های گوناگون صنعتی و بر اساس الزامات مندرج در آیین نامه های معتبر داخلی و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 119500 تومان

تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method
فايل پيوست

 "پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش سازه" تحلیل غیرخطی و مدل سازی عددی تیر بتن مسلح تقویت شده با FRP توسط Finite Element Method   مشخصات کلی: شامل فایلهای word و ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 129500 تومان

بررسی پارامترهای هندسی مهاربند زانویی
فايل پيوست

 "پروژه دانشجویی مهندسی عمران" بررسی پارامترهای هندسی مهاربند زانویی   مشخصات کلی: شامل فایلهای word و pdf بالغ بر 146 صفحه (4 فصل) فهرست مطالب فصل اول 1-1- مقدمه 1-2- شکل پذیری سازه ها 1-3- مفصل و لنگر پلاستیک 1-4- منحنی ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 129500 تومان

تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره کننده های حرارتی PCM
فايل پيوست

 "پایان نامه مهندسی مکانیک مقطع کارشناسی ارشد - گرایش تبدیل انرژی" تحلیل و طراحی سیستم گرمایشی ساختمان مسکونی با استفاده از ذخیره­ کننده ­های حرارتی PCM   تهیه شده بصورت کاملا انحصاری توسط ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 449000 تومان

شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه موردی پروژه های "پتروشیمی الف"
فايل پيوست

  "پایان نامه مهندسی عمران مقطع کارشناسی ارشد - گرایش مهندسی و مدیریت ساخت"   شناسایی و رتبه بندی دلایل انحراف از هزینه پیش بینی شده و ارائه راهکارهای کاهش آن: مطالعه ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 259500 تومان

مکانیک شکست (Fracture Mechanics)
فايل پيوست

مقدمه : یکی از عمده ‌ترین مسائلی که انسان از زمان ساختن ساده‌ترین ابزارها با آن مواجه بوده است پدیده شکست در اجسام می‌باشد و درواقع برای استفاده از مواد ... [ ادامه مطلب ]

پرداخت و دانلود قیمت: 99500 تومان

ناحیه کاربری

فرمت ایمیل صحیح نمی باشد. ایمیل خود را وارد نمایید.

رمز عبور خود را وارد نمایید.

مجله اینترنتی دیتاسرا
کلیه حقوق مادی و معنوی این وبسایت متعلق به گروه نرم افزاری دیتاسرا می باشد.
ایمیل:
support.datasara[AT]gmail[دات]com

Copyright © 2025