منتدى فيجوال بيسك لكل العرب | منتدى المبرمجين العرب
[سؤال] لدي مشكلة في كتابة اكواد لقراءة وفهرسة محتوى صفحات الويب. - نسخة قابلة للطباعة

+- منتدى فيجوال بيسك لكل العرب | منتدى المبرمجين العرب (http://vb4arb.com/vb)
+-- قسم : قسم لغات البرمجة الاخرى (http://vb4arb.com/vb/forumdisplay.php?fid=4)
+--- قسم : قسم لغة Java (http://vb4arb.com/vb/forumdisplay.php?fid=17)
+---- قسم : قسم اسئلة Java (http://vb4arb.com/vb/forumdisplay.php?fid=22)
+---- الموضوع : [سؤال] لدي مشكلة في كتابة اكواد لقراءة وفهرسة محتوى صفحات الويب. (/showthread.php?tid=28637)



لدي مشكلة في كتابة اكواد لقراءة وفهرسة محتوى صفحات الويب. - engmm - 16-02-19

السلام عليكم ورحمة الله و بركاته
اسعد الله أيامكم بالمسرات

لدي مشكلة في كتابة اكواد لقراءة وفهرسة محتوى صفحات الويب.
لدي نوعين من ملفات الويب 
الاول : https://www.google.co.uk و كتب كود القراءة و اشتغل.
اما النوع هذا file:empty.htm يمثل ملفات موجودة على جهازي ولم استطع قراءته وبحثت في النت ولا لقيت نتيجة , فضلا لا امرا كيف اقدر اقرا هذا النوع من الملفات ؟ هل فيه كلاسات معينة لذلك؟

السؤال الثاني : كيف استخرج محتوى صفحة الويب بحيث اتخلص من html tags فقط باستخدام الجافا 

السؤال الثالث: ما هو افضل داتا ستركنشر لعمل فهرسة محتوى الويب بحيث ما تسمح بتكرار الكلمات المخزنة و تكون  الناصر مرتبة ابجديا و اقدر اطلع اصغر واكبر قيمة و اقدر ابحث فيها؟

انتظر الرد 

و بارك الله فيكم