دانلود مطالب پژوهشی با موضوع توسعه ی تکنیک های وب کاوی به منظور ... |
شکل ۴-۳۸.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Music tools"از"Beetle"…………..۱۴۶
شکل ۴-۳۹.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Others"از"Beetle"………………..۱۴۶
شکل ۴-۴۰.استخراج بخشی از نتایج PSEFiL برای زیر طبقه” Shoes,clothing and sport wea Company"از"Puma"………………………………………………………………………….۱۴۷
شکل ۴-۱۴.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Animal"از"Puma"………………..۱۴۸
شکل ۴-۴۲.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Web server"از"Puma"……………۱۴۹
شکل ۴-۴۳.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Others"از"Puma"…………………۱۴۹
شکل ۴-۴۴.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Computer platform"از"Platform"…150
شکل ۴-۴۵.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Concept"از"Platform"……………۱۵۱
شکل ۴-۴۶.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Game"از"Platform"………………۱۵۲
شکل ۴-۴۷.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Arts group"از"Platform"…………۱۵۲
شکل ۴-۴۸.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Co-operative Bank"از"Platform"…۱۵۳
شکل ۴-۴۹.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Others"از"Platform"………………۱۵۳
فصل پنجم………………………………………………………………………………………۱۵۵
شکل۵-۱.قسمت جستجوی موتورجستجوی ……………………………………………..PSEFiL156
شکل۵-۲. جستجوی “Web mining” توسط موتورجستجوی ……………………………PSEFiL158
شکل۵-۳.نمایش درختی “Web mining” توسط موتورجستجوی …………………………PSEFiL157
شکل۵-۴.نمایش درختی “Puma” توسط موتورجستجوی ………………………………..PSEFiL158
شکل۵-۵.لینک هاواسنیپت های طبقه “Concept” از"Web mining"توسط موتورجستجوی…PSEFiL158
شکل۵-۶.لینک هاواسنیپت های طبقه"Shoes-Sport wear"از"Puma"توسط موتورجستجوPSEFiL……159
فصل ششم………………………….……………………………………………………………۱۶۰
شکل ۶-۱.معماری موتور جستجوی پیشنهادی ……….……………………………………PSEFiL162
چکیده
ماهیت پویای شبکه جهانی و ابعاد رو به رشد آن، بازیابی دقیق اطلاعات را دشوار ساخته است. پاسخ های نادرست برگشت داده شده به وسیله ی موتورهای جستجو، خصوصا برای عبارات پرسوجو با معانی مختلف، باعث نارضایتی کاربران وب شدهاست که نیاز به پاسخ های دقیق برای تقاضاهای اطلاعاتی خود دارند. امروزه موتورهای جستجو تلاش میکنند تا درخواست کاربران را از طریق مطالعه سابقه جستجو و یا حتی شرکت دادن کاربران در فرایند جستجو به منظور روشن ساختن آنچه که آنها واقعا نیاز دارند، دریابند. این روند بخشی از تلاش موتورهای جستجو برای شخصیسازی است.
یکی از موتورهای جستجوی شخصیسازی شده ی خوش تعریف و خوش ساخت، اسنکت[۱] است که از مشارکت کاربر برای فرایند شخصیسازی استفاده میکند. در این تحقیق بر اساس الگوریتم شخصیسازی شده اسنکت، یک معماری از موتور جستجوی شخصیسازی شده جدید پیشنهاد شده در این پایان نامه به نام PSEFiL ارائه شدهاست که با دخالت دادن کاربر و فیلتر سازی لینک ها پاسخ هایی با کمترین میزان یا عدم وجود انحراف موضوع به منظور غنی سازی مجموعه جواب، به کاربران تحویل میدهد. علاوه بر این، مجموعه جواب مستحکم است زیرا هر لینک موجود در مجموعه نتایج، یا دارای رتبه بالایی از سایر موتورهای جستجو است و یا کمترین انحراف موضوع را با یک فرایند اسکن دستی دقیق داراست. بعلاوه هر لینک به روشنی برای هر معنی ذهنی موجود از یک عبارت پرسوجو طبقهبندی شدهاست. یکی از اهداف PSEFiL، آماده سازی و تحویل پاسخ های دقیق است نه تحویل مجموعه پاسخی با لینک های بیشتر که ممکن است محتوایشان دقت کم داشته و یا دقیق نباشند.
کلمات کلیدی
موتور جستجو، بهینه سازی موتور جستجو، شخصیسازی موتور جستجو، ساختارکاوی وب, محتوا کاوی وب
فصل اول
کلیات
۱-۱مقدمه
وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد، به انتشار اسناد خود در آن مبادرت می ورزند. با توجه به حجم وسیع اطلاعات و با توسعه سیستم های اطلاعاتی، داده به یکی از منابع پراهمیت سازمانها بدل گشته است. از این رو در سال های اخیر، روشها و تکنیکهای دستیابی کارا به دادهها، به اشتراک گذاری دادهها و استخراج اطلاعات از دادهها به شدت مورد نیاز جامعه ی اطلاعاتی و کاربران آن می باشد. اهمیت مدیریت و دسته بندی موثر انواع گوناگون دادهها به منظور استفاده و تحلیل کارآمد آنها برای کاربران عام و همچنین کارمندان دانشی[۲] از کسی پوشیده نیست. در این بین، ماهیت وب دربردارنده ی چالش های بسیاری است که دسته بندی و مدیریت دادهها را مشکل می سازد. از آن جمله می توان به دشوار بودن یافتن اطلاعات مورد نیاز در وب به دلیل دقت تحلیلی پایین موتورهای جستجو، عدم خصوصی سازی اطلاعات، طولانی بودن زمان پاسخ درک شده توسط کاربر، عدم رضایت کاربر در کیفیت پاسخ دریافتی، گوناگونی دادههای موجود در وب و … اشاره کرد.
در موتور جستجو[۳] کاربر کلید واژه ی را وارد کرده و ماژول جستجو در بانک اطلاعاتی خود به جستجو میپردازد و سایت های مرتبط با موضوع شما را نمایش خواهد داد زمانی که کاربر از یک موتور جستجو برای بیان درخواست خود استفاده میکند، نتایج ارائه شده ازسوی موتور جستجو، تنها به یک لیست از نتایج منتهی نمیشود بلکه اکثرموتورهای جستجو در کنار آن نتایج، امکانات دیگری را به کاربر ارائه میدهندکه میتوانند در رساندن کاربر به درخواست حقیقی اش بسیار مفید باشند.
روشهای مختلفی به منظور بازیابی اطلاعات مورد استفاده قرار میگیرند که عمدتا مبتنی بر محتوا و ساختارند و از الگوریتم های مختلفی به این منظور استفاده میکنند مطالعات نشان میدهند کلمات پرس وجو کوتاه و متفاوتند و هر کاربر منظورخاصی از یک پرس وجوی مشابه دارد، در واقع همیشه نتایج ارائه شده آن چیزی نیست که کاربر انتظار آن را دارد، کاربران سلایق متفاوتی دارند اماموتور جستجو نتیجه یکسانی را برای همه آنها ارائه میدهد. اگر بتوان از سلایق کاربران در جستجو استفاده کرد مطمئنا نتایج رضایت بخش تری حاصل میشود. در واقع در چنین ساختاری، دو کاربر نتایج متفاوتی را از یک پرسوجوی یکسان دریافت میکنند.یکی از مباحث مطرح و پرطرفدار در امر بازیابی اطلاعات، شناخت رفتار کاربر[۴] و استفاده از سابقه رفتاری او در مشاهده صفحات وب درگذشته است تا از این رو، نتایج حاصل از موتور جستجو هر چه بیشتر به سلایق کاربر نزدیک باشد و باعث رضایتمندی بیشتر کاربران شود در واقع فرایند شخصیسازی[۵] موتور جستجو و بهبود نتایج حاصل از جستجوی کاربران، از زمینههای پژوهشی و باز در این حوزه است که پژوهشگران فراوانی رابه سوی خود جذب کرده و تداعی گر نتایج ارزشمندی تا به امروز است.
وبکاوی[۶] به عنوان زیرشاخه ای تخصصی شده از دانش داده کاوی به فرایند کشف اطلاعات و دانش ناشناخته و مفید از دادههای وب اطلاق میشود که در زمینههای گوناگون کاربرد دارد و در سال های اخیر و همگام با توسعه ی وب،این شاخه مورد توجه بسیاری از پژوهشگران بوده است. وبکاوی نه تنها به معنی استفاده از تکنیک های داده کاوی[۷] برای دادههای ذخیره شده در صفحات وب است بلکه الگوریتم های آن به منظور پاسخ گویی به خواسته های کاربران از وب از نظر زمان پاسخ گویی و قدرت تحلیل وب اصلاح می شوند.
دراین پایان نامه ابتدا فرایند وبکاوی،شخصیسازی موتور جستجو روشها و ابزارهای مورد استفاده در آنها تشریح و سپس با بهره گرفتن از ترکیب ساختار کاوی و محتوا کاوی و با بررسی موتور جستجوی اسنکت به شخصیسازی موتورجستجو برای رسیدن به نتایج بهترپرداخته میشود.
۱-۲بیان مسئله و اهمیت آن
گسترش شبکه جهانی وب منجر به تولید حجم زیادی از دادهها می شود به گونه ای که در صورت عدم سازمان دهی درست و مدیریت دادهها دسترسی موثر به آنها غیرممکن خواهد بود. بنابراین، استفاده از تکنیک های وب کاوی در شبکه ی جهانی وب در حال حاضر مورد توجه بسیاری از پژوهشگران است.وب کاوی، فرایند کشف اطلاعات و دانش ناشناخته از دادههای موجود در وب می باشد.و محیط اینترنت را به محیطی کاربردی تبدیل کرده تا کاربران بتوانند سریع تر و راحت تر اطلاعات مورد نیازشان را پیدا کنند. این تکنیک شامل کشف و تحلیل دادهها،مستندات و دادههای چند رسانه ای از محیط وب است.وب کاوی،از جزئیات ومحتویات سند و ساختار ابرپیوندها استفاده می کند تا کاربر بتواند اطلاعات مورد نیازش را در اختیار داشته باشد.
وب کاوی نتیجه ی فرایند توسعه و گسترش مفاهیم و کاربرد داده کاوی در وب است اما دارای تفاوتهای عمده ای با داده کاوی است. داده کاوی غیربرخط و وبکاوی به صورت برخط انجام می گیرد. وب کاوی طی مراحل بازیابی اسناد مورد نظر در وب، انتخاب اطلاعات و پیش پردازش، تعمیم با کشف خودکار الگوهای عام در یک یا چندین سایت وب و تحلیل که در این مرحله الگوهای بهدستآمده در مرحله قبل اعتبار سنجی و تفسیر می شوند،داده را به دانش تبدیل میکند. [۴۱]
روشهای وب کاوی بر اساس کاوش نوع داده به سه دسته تقسیم می شوند:
-
- محتواکاوی وب[۸]:فرایند استخراج اطلاعات مفید از محتوای مستندات وب است.این محتوا می تواند شامل متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیست ها و جداول باشد.از الگوریتم های مربوط به آن درخت تصمیم و شبکه های عصبی را می توان نام برد.
-
- ساختارکاوی وب[۹] : وب را می توان به صورت گرافی که گره های آن اسناد و یال های آن پیوندهای بین اسناد است، بازنمایی کرد. ساختارکاوی وب، فرایند استخراج اطلاعات ساختاری از وب می باشد.
-
- کاربردکاوی وب[۱۰]: کاربرد تکنیک های داده کاوی برای کشف الگوهای کاربرد وب، به منظور درک و برآوردن بهتر نیازهای کاربران می باشد.در واقع روشی برای پیش بینی رفتار کاربر در هنگام تعامل با وب است.کاوش کاربرد وب شامل مراحل پیش پردازش، کشف الگو و تحلیل الگوست[۳۹,۴۱].
موتور جستجو یا جستجوگر، به طور عمومی به برنامه ای گفته میشود که کلمات کلیدی را دریک سند یا بانک اطلاعاتی جستجو میکند. در اینترنت به برنامه ای تحت وب گفته میشود که کلمات کلیدی موجود درفایل را جستجو میکند حال ٱنکه برخی از موتورهای جستجو، سندهای وب جهانی، گروه های خبری و آرشیوهای[۱۱] FTPرا جستجو میکنند[۵۵].
روشهای مختلفی به منظور بازیابی اطلاعات مورد استفاده قرار میگیرند که عمدتا مبتنی بر محتوا و ساختارند و از الگوریتم های مختلفی به این منظور استفاده میکنند. مطالعات نشان میدهند کلمات پرس وجو کوتاه و متفاوتند و هر کاربر منظورخاصی از یک پرس وجوی مشابه دارد، در واقع همیشه نتایج ارائه شده آن چیزی نیست که کاربر انتظار آن را دارد، کاربران سلایق متفاوتی دارند اماموتور جستجو نتیجه یکسانی را برای همه آنها ارائه میدهد. اگر بتوان از سلایق کاربران در جستجو استفاده کرد مطمئنا نتایج رضایت بخش تری حاصل میشود.این پایان نامه به دنبال بررسی روشهای شخصیسازی موتور جستجو با بهره گرفتن از روشهای وبکاوی است[۲].
فرم در حال بارگذاری ...
[شنبه 1400-08-22] [ 01:02:00 ب.ظ ]
|