no-img
پرشیا فایل

پایان نامه خوشه بندی متون فارسی -Persian text clustering - پرشیا فایل


پرشیا فایل
اطلاعیه های سایت

گزارش خرابی لینک
اطلاعات را وارد کنید .

ادامه مطلب

PDF
پایان نامه خوشه بندی متون فارسی -Persian text clustering
pdf
اردیبهشت 4, 1397
2mb
۰ تومان
رایگان – خرید

پایان نامه خوشه بندی متون فارسی -Persian text clustering


دانلود پایان نامه کارشناسی در رشته مهندسی کامپیوتر گرایش نرم افزار
با عنوان:
خوشه بندی متون فارسی

خوشه بندی متون فارسی -Persian text clustering

چکیده پژوهش خوشه بندی متون فارسی به شرح ذیل میباشد:

خوشه بندی یکی از تکنیک های بسیار قدرتمند برای کشف گروه ها و وابستگی های طبیعی در یک مجموعه
داده و همچنین شناخت الگوهای ساختاری و موضوعی موجود در آن، بدون داشتن هر گونه پیش زمینه ی
شناختی در مورد مشخصات و ویژگی های داده، می باشد.
خوشه بندی اسناد، به عنوان یکی از روش های یادگیری ماشین بدون ناظر ، در زمینه های مختلف پردازش
زبان های طبیعی از قبیل بازیابی اطلاعات ، خلاصه سازی چند متنی خودکار و … کاربرد گسترده ای دارد.
به عنوان مثال در موتورهای جستجو، خوش هبندی اسنادی که از نتایج موتور جستجو به دست می آید تأثیر
قابل ملاحظه ای در بهبود دقت بازیابی اطلاعات خواهد داشت.
در این پژوهش به بررسی روش های موجود برای خوشه بندی اسناد و همچنین پیاده سازی یکی از این
روش ها برای متون فارسی پرداخته شده است.
اساس خوشه بندی در اسناد یافتن و دسته بندی سندهایی می باشد که با یکدیگر شباهت دارند. در واقع
خوشه بندی به روشی گفته می شود که یک مجموعه ی بزرگ از اسناد را گرفته و به صورت خودکار به چند
مجموعه ی کوچک تر از اسناد مشابه تقسیم می کند در واقع اسناد موجود در یک خوشه از لحاظ موضوعی و
یا مفهومی یکسان می باشند.
در حالت کلّی دو روش خوشه بندی وجود دارد: ۱- روش سلسله مراتبی ۲-روش افرازی
در روش سلسله مراتبی هر سند ابتدا به صورت یک خوشه در نظر گرفته می شود و سپس فاصله ی بین
جفت خوشه ها محاسبه شده و در گام بعدی هر جفت خوشه با کم ترین فاصله ادغام می شوند. این کار آن
قدر تکرار می شود تا آن که تعداد خوشه مورد نظر به دست آید.
در الگوریتم های افرازی اسناد به نحوی به چند بخش تقسیم می شوند، مثلاً در الگوریتم های خانواده ی
مرکز مشخص شده که هر مرکز به عنوان شاخص یک خوشه می باشد، سپس هر k ابتدا ،K-means
مرکز مجدداً k مرکز به یک خوشه تخصیص می یابد. سپس k سندی براساس اندازه فاصله (بین هر سند و
خوشه بر اساس تابع معیار به صورت بهینه k محاسبه شده و این گام آنقدر تکرار می شود تا یک مجموعه از
به دست آید.
واژه های کلیدی: خوشه بندی متون فارسی ، متن کاوی ، پردازش زبان طبیعی، زبان فارسی

فهرست مطالب گرداوری شده:

۱. مقدمه ………………………………………………..………………………….۹
۱,۱ .داده کاوی چیست؟ …………………………………………………………………. ۱۰
۱,۱,۱ .مفاهیم پایه در داده کاوی ……………………………………………………….. ۱۱
۱,۱,۲ .تعریف داده کاوی ………………………………………………………………… ۱۱
۱,۲ .متن کاوی چیست؟ …………………………………………………………………. ۱۱
۱,۲,۱ .کشف دانش و ارتباط آن با متن کاوی ……………………………………………. ۱۳
۱,۲,۲ . تعاریف متن کاوی ……………………………………………………………….. ۱۴
۱,۲,۳ . حوزه های مرتبط با متن کاوی ……………………………………………………. ۱۵
۱,۳ .مقدمه ای بر خوشه بندی . ………………………………………………………….. ۱۶
۱,۳,۱ . خوشه بندی در مقابل رده بندی ………………………………………………….. ۱۶
۱,۳,۲ یادگیری با نظارت در مقابل یادگیری بدون نظارت ……………………………… ۱۷
۱,۳,۳ کاربردهای خوشه بندی ………………………………………………………… ۱۷
۱,۳,۴ چالش های پیش رو در خوشه بندی موجود …………………………………… ۱۸
۲. مدل های نمایش …………………………………………………………………….۲۱
۲,۱ . فضای برداری ……………………………………………………………………… ۲۱
۲,۱,۱ . توسعه ها ………………………………………………………………………… ۲۳
۲,۲ . مدل گراف ………………………………………………………………………… ۲۴
۲,۳ . مدل مبحث احتمالی: …………………………………………………………….. ۲۵
۳. پی شپردازش متن و کاهش ابعاد …………………………………………………۲۸
۳,۱ . پیش پردازش ……………………………………………………………………… ۲۸
۳,۱,۱ فیلتر کردن ……………………………………………………………………………. ۲۸
۳,۱,۲ .نرمال سازی و اصلاح نویسه ها ……………………………………………….. ۲۸
۳,۱,۳ تکه تکه کر دن ………………………………………………………………… ۲۹
۳,۱,۴ ریشه یابی …………………………………………………………………… ۲۹
۳,۱,۵ حذف کلمات توقف …………………………………………………………. ۲۹
۳,۱,۶ هرس کردن ……………………………………………………………………. ۲۹
۳,۱,۷ . یکسان سازی کلمات هم معنی ………………………………………………….. ۲۹
۳,۲ . کاهش ابعاد ……………………………………………………………………….. ۳۰
۳,۲,۱ . انتخاب خصوصیات ……………………………………………………………… ۳۰
۳,۲,۲ . تحلیل اجزای اصلی ……………………………………………………………… ۳۱
۳.۲.۳ تجزیه به مقادیر منحصر به فرد ……………………………………………… ۳۲ .
۳,۲,۴ . تصویرسازی تصادفی …………………………………………………………….. ۳۳
۴. روش های خوشه بندی …………………………………………………………….۳۷
۴,۱ . مقادیر دورافتاده …………………………………………………………………… ۳۸
۴,۲ . دسته ای، برخط، جریان …………………………………………………………… ۳۹
۴,۳ . معیارهای مشابهت…………………………………………………………………. ۳۹
معدل های پایه …………………………………………………………………. ۴۲ – K.4,4
معدل های میانی………………………………………………………………… ۴۴ – k.4,5
۴۵ ………………………………………………………………. Isoodata 4,6 . الگوریتم
۴۶ …………………………………….. (HAC) 4,7 . خوشه بندی متراکم سلسله مراتبی
۴,۸ . گاز عصبی روینده …………………………………………………………………. ۴۸
معدل های کروی برخط ……………………………………………………… ۴۹ -k .4,9
۴,۱۰ . خوشه بندی طیفی ……………………………………………………………….. ۵۲
۵. روش های اندازه گیری اعتبار خوشه ها ۵۵
۵,۱ شاخص های اعتبارسنجی ………………………………………………………… ۵۶
۵,۱,۱ شاخص دون …………………………………………………………………… ۵۷
۵,۱,۲ .شاخص دیویس بولدین ……………………………………………………….. ۵۷
۵۸ ………. R 5,1,3 شاخصهای اعتبارسنجی ریشه میانگین مربع انحراف از معیار و ریشه
۵۹ ………………………………………………………… SD 5,1,4 شاخص اعتبار سنجی
۶۰ ………………………………………………….. S_Dbw 5,1,5 شاخص اعتبارسنجی
۶. پیاده سازی روش سلسله مراتبی …………………………………………………….. ۶۳
۶,۱ . مجموعه داده ………………………………………………………………………. ۶۳
۶,۲ . پیش پردازش ……………………………………………………………………… ۶۴
۶,۲,۱ . حذف کاراکترهای اضافی و تکه تکه سازی ………………………………………. ۶۴
۶,۲,۲ . حذف کلمات توقف ……………………………………………………………… ۶۴
۶,۲,۳ . حذف کلمات پرتکرار و نادر ……………………………………………………… ۶۶
۶,۲,۴ . ریشه یابی ……………………………………………………………………….. ۶۶
۶,۲,۵ . یکسان سازی کلمات هم معنی …………………………………………………… ۶۷
۶,۳ . روش خوشه بندی ………………………………………………………………….. ۶۷
۷. خلاصه و نتیجه گیری ۶۹
۸. مراجع ۷۰



دیدگاه ها


پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

من ربات نیستم *