1. المدير العام

    المدير العام أدارة موقع أكتب كود

    [​IMG]

    مكتبة BeautifulSoup

    سنتحدث اليوم عن مكتبة BeautifulSoup هي مكتبة تمكننا من عمل تحليل للبيانات parsing و البيانات المحددة يكون شكلها معقد و غير منظم مثل html الذي نعمل لها information gathering نأخذ البيانات عبر مكتبات urllib او requests او اي مكتبة و نستخدم مكتبة مثل BeautifulSoup لعمل تنظيم للبيانات او بمعنى اصح ندخل للرابط نأخذ البيانات او عمل parsing للبيانات المهمة الذي تلزمنا بعملنا.

    لتثبيت هذه المكتبة نستخدم الامر

    كود:
     pip install bs4


    [​IMG]

    معنى bs4 هو اختصار للكلمة BeautifulSoup و الرقم 4 هو الاصدار اي version
    عند انتهاء التثبيت سوف يكتب لنا نجاح العملية كما يلي
    كود:
    Successfully built bs4
    Installing collected packages: bs4
    Successfully installed bs4-0.0.1
    
    هذا يؤكد لنا نجاح عملية التثبيت بنجاح.

    المكتبة كبيرة جداً إذا نريد شرحها كاملة سوف تأخذ وقت كبير جداً
    لكن سنتحدث عن اهم النقاط بها فقط و كيفية استخدامها بعملية parser او استخراج للبيانات.
    كود:
    >>> from bs4 import BeautifulSoup
    >>> import requests
    >>> url = "https://www.google.com/search?q=programmer-tech"
    >>> res = requests.get(url)
    >>> soup = BeautifulSoup(res.content,'html.parser')
    >>> soup.title
    <title>programmer-tech - Google'da Ara</title>
    >>>  
    في البداية استدعينا جزء من مكتبة bs4 وهو BeautifulSoup و بعده استدعينا مكتبة requests ثم وضعنا رابط موقعنا في متغير variable كما يظهر في متصفح جوجل اي قيمة الـ q ثم استخدمنا متغير آخر res و عيننا له requests و قلنا له بالذهاب للموقع المحدد في المتغير url هكذا اصبح لدينا بيانات html مخزنة في requests سنحتاج لإستخدام BeautifulSoup ثم وضعنا متغير soup و قيمته طلب بيانات الـ html عن طريق res.content ثم عملنا parser للداتا و بعده استعرضنا العنوان title و اعطانا إياه.

    اذا كتبنا

    كود:
    >>> soup.title.text
    "programmer-tech - Google'da Ara"
    >>>
    اخرج لنا البيانات بدون تاج.

    [​IMG]

    اذا نريد طباعة الداتا كاملة نكتب
    كود:
     >>> soup.prettify()
    عند الضغط على Enter سيأخذ وقت و يطبع كامل الداتا.
     
جاري تحميل الصفحة...