واحد تحقیق و توسعه
معرفی دو موتور جستجوی ایرانی
دو موتور جستجوی ایرانی كه بر منابع فارسي موجود در فضای وب تمركز دارد، اخیرا معرفی شدند.......
يوز یک موتور جستجوي ايراني است كه بر منابع فارسي موجود در فضای وب تمركز دارد. طراحی و تولید موتور جستجوی یوز از اواخر سال 1388 با تلاش نیروهای متخصص داخلی آغاز شده است. یوز تاکنون توانسته است حدود يك ميليارد صفحه را پوشش دهدو احاطه گستردهای بر وب فارسي داشته باشد. یوز همچنین داراي خدمات جستجوی خبر، وبلاگ و عكس ميباشد
ويژگيهای موتور جستجوی یوز
- تمركز بر زبان فارسي
- سرعت بسیار بالا با هدف گذاری پاسخدهی سریع به کاربران با میانگین تأخیر کمتر از ۱ثانیه
- تحلیل نیازهای متداول کاربران و پاسخدهی مستقیم به چندین نوع از جستجوهای کاربران
- معماری بيدرنگ به نحوي كه صفحات جدید، تا چند دقیقه پس از خزش، قابل جستجو میباشند
- معماری مقیاسپذیر به نحوی که براي افزايش پوشش صفحات وب، فقط كافيست ماشینهای جدید به خوشهها اضافه شود
موتور جویشگر یوز با هدف تحلیل و دسته بندی محتوای فارسی متناسب با نیاز کاربر ایرانی طراحی گردیده و هدف اصلی آن ارتقا کیفی و کمی وب فارسی است.در گستردگی پوشش صفحات، یوز تنها موتور جستجوی داخلی با بالای یک میلیارد صفحه در وب فارسی است.
- در موتور جستجوی یوز علاوه بر پوشش عملگرهای جستجو، یکی از اولویتهای اصلی، پاسخ مستقیم به جستجوهای کاربر در نیازهای روزانه در زمينههاي آب و هوا، اذان، دانلود، رويدادهاي ورزشي، سينما، دانستنيها، مشاهير، آشپزي، حديث، آوا، قرآن، شعر و ويدئو میباشد. کمیت و کیفیت این گروه از پاسخها در حال توسعه و تکمیل میباشد. دقت کنید یک جستجوی خاص، میتواند تعدادی از پاسخهای مستقیم را برای شما به همراه داشته باشد. به عنوان مثال جستجوی کلمه "موسی" در بخش وب، دارای پاسخ مستقیم در سه بخش "دانستنیها، ویدئو و دیکشنری" میباشد. همچنین شما میتوانید با کلیک بر روی "اخبار" یا "وبلاگ " یا "عکس"، کلمه موسی را در هر کدام از این بخشها به طور دقیقتر جستجو کنید.
درباره موتور جستجوی پارسیجو
این سامانه مجهز به پردازشگر و خطایاب هوشمند فارسی میباشد. حدود ۲۰۰ میلیون صفحه فارسی ( از ۵۰۰ میلیون سند) را نمایهسازی نموده است . پپارسی جو موتور جستجویی مستقل و بومی است که شامل سه بخش اصلی میباشد.
الف) خزشگر (crawler) :
خزشگر پارسیجو که Parsijooنام دارد به صورت هوشمند وب را پیمایش نموده و صفحات را جمع آوری میكند. در حال حاضر خزشگر پارسیجو، قادر به خزش دویست میلیون صفحه وب به صورت متوالی میباشد. نسخه جدید آن كه بزودی بر روی وب قرار میگیرد قادر است بیش از یك میلیارد صفحه وب را جمعآوری كند. در این بخش اسناد وب فارسی با یک سیاست مناسب بر مبنای پوشش و تازگی از وب جمعآوری میشوند.
ب) نمایه ساز:
در این بخش متن خالص از اسناد فارسی (مانند HTML، DOCو PDF) بارگذاری شده، توسط خزشگر استخراج شده و با توجه به خصوصیات زبان فارسی نرمال سازی شده و سپس عمل نمایه سازی انجام میگیرد.
ج) بخش بازیابی و جستجو:
این بخش كه به صورت برخط عمل می كند و با كاربر در ارتباط است، در ابتدا پرسجو را از كاربر گرفته و پس از پردازش آن، اسناد مرتبط را از بخش نمایهساز بازیابی میكند. در نهایت اسناد با استفاده از روشهای هوشمند رتبه بندی جدید كه به صفحات فریب آمیز (اسپم) حساسیت پایینی دارند، رتبهبندی گردیده و به كاربر ارائه می شوند.