خوشه بندي ساختاروب مرتض ي حقير چهرقاني دي ماه 1385 1 فهرست • • • • • تعريف مساله معيارهاي خوشه بندي الگوريتم هاي خوشه بندي ارزيابي نتايج خوشه بندي نتيجه گيري • پيشنهادات وکارهاي آينده 2 تعريف مساله – عدم وجود تعريف بطور سراسري پذيرفته شده – قرار دادن داده ها در گروه هاي مختلف • کمينه کردن شباهت بين گروه ها • بيشينه کردن شباهت درون گروهي – تعريف خوشه ها توسط الگوريتم خوشه بندي – محدوده خوشه بندي در وب • خوشه بندي صفحات وب در دامنه خاص • خوشه بندي نتايج جستجو 3 تعريف مساله -ادامه • مزاياي خوشه بندي وب – پيش پردازش – بهبود جستجو • مبتني بر خوشه • خوشه گرا – سازمان دهي اطالعات و ارائه دانش – بهبود عمليات خزش وب 4 تعريف مساله -ادامه • چالش هاي خوشه بندي وب معيار خوشه بندي – معيارهاي خوشه بندي • چگونگي استفاده از معيارهاي مختلف الگوريتم خوشه بندي انجام عمليات خوشه بندي – الگوريتم هاي خوشه بندي • کدام الگوريتم؟ خوشه ها – ارزيابي نتايج خوشه بندي ارزيابي نتايج 5 وب معيارهاي خوشه بندي • • • • 6 معيارهاي مبتني بر پيوند معيارهاي مبتني بر محتوا معيارهاي مبتني بر ساختار معيارهاي ترکيبي معيارهاي مبتني برپيوند • • • • پيوند مستقيم هم پيوندي جفت شدگي مسائل – – – – – وجود رقابت مانع از برقراري پيوند مناسب مي شود نظرات جانبدارانه در برقراري پيوند عدم وجود پيوند در صفحات تازه بوجود آمده پيوند به سايتهاي عمومي ارتباط فقط 7درصد زوج دامنه ها توسط پيوندها • در نتيجه معيارهاي ديگر 7 معيارهاي مبتني برپيوند -ادامه • ارتباط معيارهاي پيوندي با يکديگر – عامل اصلي ،استفاده از پيوندها • تاثير در دقت – نقش حاشيه اي هم پيوندي و جفت شدگي • تاثير در يادآوري • بکارگيری معيارهاي مبتني بر پيوند – – – – 8 تشکيل بردار با تعداد ابعاد برابر با تعداد پيوندها چگالي محلي و نسبي نسبت مقادير هم پيوندي و/يا جفت شدگي به کل پيوندهاي خروجي و/يا ورودي طول مسير ،توزيع يالها و اشيا وب و ... معيارهاي مبتني برمحتوا و ساختار – انواع اطالعات • • • • متن مستندات استخراج عنوان ،کلمات کليدي ،اشکال ،جداول و ... متن موجود در اطراف پيوند متن اطراف کلمات جستجو (در نتايج جستجو) – نمايش گرافي محتوا • استفاده از عمليات يافتن زيرگراف مشترک براي شباهت 9 معيارهاي ترکيبي • ترکيب محتوا و پيوند :تاکيد يا نفی؟ • ارتباط محتوا و پيوند: – – – – 10 در درون شعاعي در حدود 3پيوند کلمات :حذف صفحات نويز و درصدي از صفحات که مي توانند خوشه بندي شوند جفت شدگي :اندازه خوشه (بزرگ) و تعداد خوشه هاي توليد شده هم پيوندي :درصد از صفحه که خوشه بندي مي شود الگوريتم هاي خوشه بندي • • • • • • • • 11 الگوريتم هاي سلسله مراتبي در مقابل الگوريتم هاي يک سطحي الگوريتم هاي مبتني بر يافتن نقاط نماينده الگوريتم هاي مبتني بر يافتن اجتماعات الگوريتم هاي مبتني بر تئوري گراف ها الگوريتم هاي درختي الگوريتم هاي مبتني بر يادگيري خوشه بندي ماتريس هاي خلوت الگوريتم هاي مبتني بر چگالي الگوريتم هاي سلسله مراتبي و يک سطحي • الگوريتم هاي سلسله مراتبي – – – – نمايش بهتر از دانش به کاربر پيچيدگي باال خطا در طول ترکيب حريصانه استفاده از الگوريتم هاي يک سطحي براي تشکيل خوشه هاي اوليه – انجام چند گذر برای بهبود سلسله مراتب 12 الگوريتم هاي مبتني بريافتن نقاط نماينده – – – – تعيين تعدادي نقطه (مرکز) و انتساب داده ها به آن تعيين تعدادي مرکز محدود و افزايش تدريجي استفاده از مفاهيم هم پيوندي و جفت شدگي برای تشکيل خوشه اوليه ارتباط با ساير الگوريتم ها • الگوريتم EMبر روي ترکيبي از Kتوزيع نرمال • برش کمينه نرمال شده 13 الگوريتم هاي مبتني بريافتن اجتماعات – تفاوت و شباهت خوشه و اجتماع • مفهوم عام تر خوشه نسبت به اجتماع – استخراج اجتماع با استفاده از خوشه بندی • معيار شباهت يک معيار پيوندي • پيش/پس پردازش جهت کاهش اندازه و يا حذف خوشه ها – ايفاي نقش هسته خوشه ها توسط اجتماعات 14 الگوريتم هاي مبتني برتئوري گراف • راهکارهاي عمده در توسعه الگوريتم هاي گرافي – تشکيل خوشه با حذف يالها • تشکيل درخت پوشاي کمينه گراف و حذف طوالني ترين يال ها • خوشه بندي مبتني بر مياني بودن • برش کمينه و برش کمينه نرمال شده – استخراج مولفه ها و گروه هاي متصل • شمارش گروه هاي دوبخش ي و محفل ها • گروه بندي گره هاي مجاور بر اساس – برقراري تطبيق و روابط تناسب 15 الگوريتم هاي درختي +ماتريس خلوت • درخت پسوندي – استفاده از tri – تشکيل درخت مبتني بر عبارت هاي پسوندي – محتواي هر گره • اتصال برچسبهاي يال هاي موجود در مسير ريشه تا گره • مستندات محتوي برچسب گره – ترکيب دو گره در صورت اشتراک بين اعضا • ماتريس خلوت – RCM – کينگ – MMD 16 الگوريتم هاي مبتني بريادگيري و چگالی • روش های يادگيری – بهينه سازي با استفاده از يک تابع تناسب يا هدف – بهبود کارايي ساير الگوريتم ها (تنظيم پارامترها و )... • روشها: – چگالي محلي و چگالي نسبي (شبيه سازي گرم و سرد کردن) – :MajorClustانتساب تکراري هر گره به سمت خوشه نزديک تر – شبکه هاي عصبي ،مدل مارکف مخفي و ...براي بهبود پارامتر • الگوريتم های مبتنی بر چگالی – توسعه کم در محيط وب • مراحل: – پيدا کردن فاصله هاي همسايگي چگال در مجموعه داده ها – ترکيب آنها براي ايجاد خوشه هاي بزرگ تر 17 ويژگي هاي تکميلي براي خوشه بندي وب • رابطه چند به چند بين خوشه ها و صفحات وب • بهنگام کردن افزايش ي خوشه ها • محلي بودن روش خوشه بندي • استفاده از مزاياي وب معنايي 18 ارزيابي نتايج حاصله ازخوشه بندي وب • دشوار و معموال وابسته به کاربرد • معيارهاي خارجي – – – – – مش ي استاندارد طاليي مش ي وظيفه گرا دقت و يادآوري انتروپي :بهم پيوستگي دروني خوشه ها :F-Measureترکيب دقت و يادآوري • معيارهاي داخلي 19 نتيجه گيري • • • • • • 20 عدم کارايي پيوند تنها استفاده از متن و پيوند با مقياس هاي متفاوت استفاده از کاهش ابعاد امکان انجام الگوريتم هاي مبتني بر چگالي بر روي وب قابليت هاي مفيد براي خوشه بندي معيارهاي ارزيابي پيشنهادات و کارهاي آينده • توسعه روش هاي جديد براساس ناحيه هاي چگال و ساختار پيوندي و متني صفحات وب – – – – تعميم الگوريتم هاي مبتني بر چگالي براي تشکيل خوشه هاي سلسله مراتبي تعريف توابع تناسب براي بهبود خوشه بندي در نظر گرفتن مقياس هاي مختلف براي پيوند و متن بررس ي استفاده از خوشه هاي پيوندي متراکم بعنوان نواحي چگال اوليه • استفاده از روش هاي يادگيري براي بهبود الگوريتم هاي مبتني بر چگالي – تعيين پارامترهای مناسب برای تعريف نواحی چگال 21 با قدرداني و تشکراز توجه و همراهی شما و راهنمايي هاي ارزشمند اساتيد ارجمند دکتر محمد قدس ي دکتر حسن ابوالحسني 22 23
© Copyright 2025 Paperzz