منتدى فيجوال بيسك لكل العرب | منتدى المبرمجين العرب

نسخة كاملة : لدي مشكلة في كتابة اكواد لقراءة وفهرسة محتوى صفحات الويب.
أنت حالياً تتصفح نسخة خفيفة من المنتدى . مشاهدة نسخة كاملة مع جميع الأشكال الجمالية .
السلام عليكم ورحمة الله و بركاته
اسعد الله أيامكم بالمسرات

لدي مشكلة في كتابة اكواد لقراءة وفهرسة محتوى صفحات الويب.
لدي نوعين من ملفات الويب 
الاول : https://www.google.co.uk و كتب كود القراءة و اشتغل.
اما النوع هذا file:empty.htm يمثل ملفات موجودة على جهازي ولم استطع قراءته وبحثت في النت ولا لقيت نتيجة , فضلا لا امرا كيف اقدر اقرا هذا النوع من الملفات ؟ هل فيه كلاسات معينة لذلك؟

السؤال الثاني : كيف استخرج محتوى صفحة الويب بحيث اتخلص من html tags فقط باستخدام الجافا 

السؤال الثالث: ما هو افضل داتا ستركنشر لعمل فهرسة محتوى الويب بحيث ما تسمح بتكرار الكلمات المخزنة و تكون  الناصر مرتبة ابجديا و اقدر اطلع اصغر واكبر قيمة و اقدر ابحث فيها؟

انتظر الرد 

و بارك الله فيكم