شکل ۴-۳۸.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Music tools"از"Beetle"…………..۱۴۶
دانلود پایان نامه - مقاله - پروژه
شکل ۴-۳۹.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Others"از"Beetle"………………..۱۴۶
شکل ۴-۴۰.استخراج بخشی از نتایج PSEFiL برای زیر طبقه” Shoes,clothing and sport wea Company"از"Puma"………………………………………………………………………….۱۴۷
شکل ۴-۱۴.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Animal"از"Puma"………………..۱۴۸
شکل ۴-۴۲.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Web server"از"Puma"……………۱۴۹
شکل ۴-۴۳.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Others"از"Puma"…………………۱۴۹
شکل ۴-۴۴.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Computer platform"از"Platform"…150
شکل ۴-۴۵.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Concept"از"Platform"……………۱۵۱
شکل ۴-۴۶.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Game"از"Platform"………………۱۵۲
شکل ۴-۴۷.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Arts group"از"Platform"…………۱۵۲
شکل ۴-۴۸.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Co-operative Bank"از"Platform"…۱۵۳
شکل ۴-۴۹.استخراج بخشی از نتایج PSEFiL برای زیر طبقه ” Others"از"Platform"………………۱۵۳
فصل پنجم………………………………………………………………………………………۱۵۵
شکل۵-۱.قسمت جستجوی موتورجستجوی ……………………………………………..PSEFiL156
شکل۵-۲. جستجوی “Web mining” توسط موتورجستجوی ……………………………PSEFiL158
شکل۵-۳.نمایش درختی “Web mining” توسط موتورجستجوی …………………………PSEFiL157
شکل۵-۴.نمایش درختی “Puma” توسط موتورجستجوی ………………………………..PSEFiL158
شکل۵-۵.لینک هاواسنیپت های طبقه “Concept” از"Web mining"توسط موتورجستجوی…PSEFiL158
شکل۵-۶.لینک هاواسنیپت های طبقه"Shoes-Sport wear"از"Puma"توسط موتورجستجوPSEFiL……159
فصل ششم………………………….……………………………………………………………۱۶۰
شکل ۶-۱.معماری موتور جستجوی پیشنهادی ……….……………………………………PSEFiL162
چکیده
ماهیت پویای شبکه جهانی و ابعاد رو به رشد آن، بازیابی دقیق اطلاعات را دشوار ساخته است. پاسخ های نادرست برگشت داده شده به وسیله ی موتورهای جستجو، خصوصا برای عبارات پرس‌و‌جو با معانی مختلف، باعث نارضایتی کاربران وب شده‌است که نیاز به پاسخ های دقیق برای تقاضاهای اطلاعاتی خود دارند. امروزه موتورهای جستجو تلاش می‌کنند تا درخواست کاربران را از طریق مطالعه سابقه جستجو و یا حتی شرکت دادن کاربران در فرایند جستجو به منظور روشن ساختن آنچه که آن‌ها واقعا نیاز دارند، دریابند. این روند بخشی از تلاش موتورهای جستجو برای شخصی‌سازی است.
یکی از موتورهای جستجوی شخصی‌سازی شده ی خوش تعریف و خوش ساخت، اسنکت[۱] است که از مشارکت کاربر برای فرایند شخصی‌سازی استفاده می‌کند. در این تحقیق بر اساس الگوریتم شخصی‌سازی شده اسنکت، یک معماری از موتور جستجوی شخصی‌سازی شده جدید پیشنهاد شده در این پایان نامه به نام PSEFiL ارائه شده‌است که با دخالت دادن کاربر و فیلتر سازی لینک ها پاسخ هایی با کمترین میزان یا عدم وجود انحراف موضوع به منظور غنی سازی مجموعه جواب، به کاربران تحویل می‌دهد. علاوه بر این، مجموعه جواب مستحکم است زیرا هر لینک موجود در مجموعه نتایج، یا دارای رتبه بالایی از سایر موتورهای جستجو است و یا کمترین انحراف موضوع را با یک فرایند اسکن دستی دقیق داراست. بعلاوه هر لینک به روشنی برای هر معنی ذهنی موجود از یک عبارت پرس‌و‌جو طبقه‌بندی شده‌است. یکی از اهداف PSEFiL، آماده سازی و تحویل پاسخ های دقیق است نه تحویل مجموعه پاسخی با لینک های بیشتر که ممکن است محتوایشان دقت کم داشته و یا دقیق نباشند.
کلمات کلیدی
موتور جستجو، بهینه سازی موتور جستجو، شخصی‌سازی موتور جستجو، ساختارکاوی وب, محتوا کاوی وب
فصل اول
کلیات
۱-۱مقدمه
وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد، به انتشار اسناد خود در آن مبادرت می ورزند. با توجه به حجم وسیع اطلاعات و با توسعه سیستم های اطلاعاتی، داده به یکی از منابع پراهمیت سازمان‌ها بدل گشته است. از این رو در سال های اخیر، روش‌ها و تکنیک‌های دستیابی کارا به داده‌ها، به اشتراک گذاری داده‌ها و استخراج اطلاعات از داده‌ها به شدت مورد نیاز جامعه ی اطلاعاتی و کاربران آن می باشد. اهمیت مدیریت و دسته بندی موثر انواع گوناگون داده‌ها به منظور استفاده و تحلیل کارآمد آن‌ها برای کاربران عام و همچنین کارمندان دانشی[۲] از کسی پوشیده نیست. در این بین، ماهیت وب دربردارنده ی چالش های بسیاری است که دسته بندی و مدیریت داده‌ها را مشکل می سازد. از آن جمله می توان به دشوار بودن یافتن اطلاعات مورد نیاز در وب به دلیل دقت تحلیلی پایین موتورهای جستجو، عدم خصوصی سازی اطلاعات، طولانی بودن زمان پاسخ درک شده توسط کاربر، عدم رضایت کاربر در کیفیت پاسخ دریافتی، گوناگونی داده‌های موجود در وب و … اشاره کرد.
در موتور جستجو[۳] کاربر کلید واژه ی را وارد کرده و ماژول جستجو در بانک اطلاعاتی خود به جستجو می‌پردازد و سایت های مرتبط با موضوع شما را نمایش خواهد داد زمانی که کاربر از یک موتور جستجو برای بیان درخواست خود استفاده می‌کند، نتایج ارائه شده ازسوی موتور جستجو، تنها به یک لیست از نتایج منتهی نمی‌شود بلکه اکثرموتورهای جستجو در کنار آن نتایج، امکانات دیگری را به کاربر ارائه می‌دهندکه می‌توانند در رساندن کاربر به درخواست حقیقی اش بسیار مفید باشند.
روش‌های مختلفی به منظور بازیابی اطلاعات مورد استفاده قرار می‌گیرند که عمدتا مبتنی بر محتوا و ساختارند و از الگوریتم های مختلفی به این منظور استفاده می‌کنند مطالعات نشان می‌دهند کلمات پرس وجو کوتاه و متفاوتند و هر کاربر منظورخاصی از یک پرس وجوی مشابه دارد، در واقع همیشه نتایج ارائه شده آن چیزی نیست که کاربر انتظار آن را دارد، کاربران سلایق متفاوتی دارند اماموتور جستجو نتیجه یکسانی را برای همه آن‌ها ارائه می‌دهد. اگر بتوان از سلایق کاربران در جستجو استفاده کرد مطمئنا نتایج رضایت بخش تری حاصل می‌شود. در واقع در چنین ساختاری، دو کاربر نتایج متفاوتی را از یک پرس‌وجوی یکسان دریافت می‌کنند.یکی از مباحث مطرح و پرطرفدار در امر بازیابی اطلاعات، شناخت رفتار کاربر[۴] و استفاده از سابقه رفتاری او در مشاهده صفحات وب درگذشته است تا از این رو، نتایج حاصل از موتور جستجو هر چه بیشتر به سلایق کاربر نزدیک باشد و باعث رضایتمندی بیشتر کاربران شود در واقع فرایند شخصی‌سازی[۵] موتور جستجو و بهبود نتایج حاصل از جستجوی کاربران، از زمینه‌های پژوهشی و باز در این حوزه است که پژوهشگران فراوانی رابه سوی خود جذب کرده و تداعی گر نتایج ارزشمندی تا به امروز است.
وب‌کاوی[۶] به عنوان زیرشاخه ای تخصصی شده از دانش داده کاوی به فرایند کشف اطلاعات و دانش ناشناخته و مفید از داده‌های وب اطلاق می‌شود که در زمینه‌های گوناگون کاربرد دارد و در سال های اخیر و همگام با توسعه ی وب،این شاخه مورد توجه بسیاری از پژوهشگران بوده است. وب‌کاوی نه تنها به معنی استفاده از تکنیک های داده کاوی[۷] برای داده‌های ذخیره شده در صفحات وب است بلکه الگوریتم های آن به منظور پاسخ گویی به خواسته های کاربران از وب از نظر زمان پاسخ گویی و قدرت تحلیل وب اصلاح می شوند.
دراین پایان نامه ابتدا فرایند وب‌کاوی،شخصی‌سازی موتور جستجو روش‌ها و ابزارهای مورد استفاده در آن‌ها تشریح و سپس با بهره گرفتن از ترکیب ساختار کاوی و محتوا کاوی و با بررسی موتور جستجوی اسنکت به شخصی‌سازی موتورجستجو برای رسیدن به نتایج بهترپرداخته می‌شود.
۱-۲بیان مسئله و اهمیت آن
گسترش شبکه جهانی وب منجر به تولید حجم زیادی از داده‌ها می شود به گونه ای که در صورت عدم سازمان دهی درست و مدیریت داده‌ها دسترسی موثر به آن‌ها غیرممکن خواهد بود. بنابراین، استفاده از تکنیک های وب کاوی در شبکه ی جهانی وب در حال حاضر مورد توجه بسیاری از پژوهشگران است.وب کاوی، فرایند کشف اطلاعات و دانش ناشناخته از داده‌های موجود در وب می باشد.و محیط اینترنت را به محیطی کاربردی تبدیل کرده تا کاربران بتوانند سریع تر و راحت تر اطلاعات مورد نیازشان را پیدا کنند. این تکنیک شامل کشف و تحلیل داده‌ها،مستندات و داده‌های چند رسانه ای از محیط وب است.وب کاوی،از جزئیات ومحتویات سند و ساختار ابرپیوندها استفاده می کند تا کاربر بتواند اطلاعات مورد نیازش را در اختیار داشته باشد.
وب کاوی نتیجه ی فرایند توسعه و گسترش مفاهیم و کاربرد داده کاوی در وب است اما دارای تفاوت‌های عمده ای با داده کاوی است. داده کاوی غیربرخط و وب‌کاوی به صورت برخط انجام می گیرد. وب کاوی طی مراحل بازیابی اسناد مورد نظر در وب، انتخاب اطلاعات و پیش پردازش، تعمیم با کشف خودکار الگوهای عام در یک یا چندین سایت وب و تحلیل که در این مرحله الگوهای به‌دست‌آمده در مرحله قبل اعتبار سنجی و تفسیر می شوند،داده را به دانش تبدیل می‌کند. [۴۱]
روش‌های وب کاوی بر اساس کاوش نوع داده به سه دسته تقسیم می شوند:

 

    • محتواکاوی وب[۸]:فرایند استخراج اطلاعات مفید از محتوای مستندات وب است.این محتوا می تواند شامل متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیست ها و جداول باشد.از الگوریتم های مربوط به آن درخت تصمیم و شبکه های عصبی را می توان نام برد.

 

    • ساختارکاوی وب[۹] : وب را می توان به صورت گرافی که گره های آن اسناد و یال های آن پیوندهای بین اسناد است، بازنمایی کرد. ساختارکاوی وب، فرایند استخراج اطلاعات ساختاری از وب می باشد.

 

    • کاربردکاوی وب[۱۰]: کاربرد تکنیک های داده کاوی برای کشف الگوهای کاربرد وب، به منظور درک و برآوردن بهتر نیازهای کاربران می باشد.در واقع روشی برای پیش بینی رفتار کاربر در هنگام تعامل با وب است.کاوش کاربرد وب شامل مراحل پیش پردازش، کشف الگو و تحلیل الگوست[۳۹,۴۱].

 

موتور جستجو یا جستجوگر، به طور عمومی به برنامه ای گفته می‌شود که کلمات کلیدی را دریک سند یا بانک اطلاعاتی جستجو می‌کند. در اینترنت به برنامه ای تحت وب گفته می‌شود که کلمات کلیدی موجود درفایل را جستجو می‌کند حال ٱنکه برخی از موتورهای جستجو، سندهای وب جهانی، گروه های خبری و آرشیوهای[۱۱] FTPرا جستجو می‌کنند[۵۵].
روش‌های مختلفی به منظور بازیابی اطلاعات مورد استفاده قرار می‌گیرند که عمدتا مبتنی بر محتوا و ساختارند و از الگوریتم های مختلفی به این منظور استفاده می‌کنند. مطالعات نشان می‌دهند کلمات پرس وجو کوتاه و متفاوتند و هر کاربر منظورخاصی از یک پرس وجوی مشابه دارد، در واقع همیشه نتایج ارائه شده آن چیزی نیست که کاربر انتظار آن را دارد، کاربران سلایق متفاوتی دارند اماموتور جستجو نتیجه یکسانی را برای همه آن‌ها ارائه می‌دهد. اگر بتوان از سلایق کاربران در جستجو استفاده کرد مطمئنا نتایج رضایت بخش تری حاصل می‌شود.این پایان نامه به دنبال بررسی روش‌های شخصی‌سازی موتور جستجو با بهره گرفتن از روش‌های وب‌کاوی است[۲].

 

    •  

 

 

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...