Semalt hünärmeni: Python we BeautifulSoup. Saýtlary aňsatlyk bilen döwüň

Maglumatlaryň derňewi ýa-da maşyn öwreniş taslamalary ýerine ýetirilende, zerur maglumatlary almak we taslamaňyzy tamamlamak üçin web sahypalaryny gyryp bilersiňiz. Python programmirleme dilinde bu maksat üçin ulanyp boljak güýçli gurallar we modullar ýygyndysy bar. Mysal üçin, HTML derňewi üçin “BeautifulSoup” modulyny ulanyp bilersiňiz.

Bu ýerde, “BeautifulSoup” -a göz aýlarys we näme üçin häzir web gyrmakda beýle giňden ulanylýandygyny öwreneris .

BeautifulSoup aýratynlyklary

- Ansat nawigasiýa, gözleg agaçlaryny gözlemek we üýtgetmek üçin dürli usullary üpjün edýär, şeýlelik bilen resminamany aňsatlyk bilen bölüp aýyrmaga we gaty köp kod ýazman zerur zatlaryňyzy çykarmaga mümkinçilik berýär.

- Çykýan resminamalary awtomatiki usulda UTF-8 we gelýän resminamalary icunikoda öwürýär. Diýmek, resminamada kodlamagy kesgitlän ýa-da owadan çorba ony awtomatiki kesgitläp bilýän bolsa, kodlamak barada alada etmeli däl.

- “BeautifulSoup” html5lib we lxml ýaly beýleki meşhur Python derňewçilerinden has ýokary hasaplanýar. Dürli derňew strategiýalaryny synap görmäge mümkinçilik berýär. Bu modulyň bir ýetmezçiligi, tizligiň hasabyna has çeýeligi üpjün etmegidir.

“BeautifulSoup” bilen web sahypasyny gyrmak üçin näme gerek?

“BeautifulSoup” bilen işe başlamak üçin enjamyňyzda “Python” programma gurşawy (ýerli ýa-da serwer esasly) bolmaly. Python adatça OS X-da öňünden gurulýar, ýöne Windows ulanýan bolsaňyz, dili resmi web sahypasyndan göçürip almaly bolarsyňyz.

“BeautifulSoup” we “Talaplar” modullary gurlan bolmaly.

Iň soňunda bolsa, HTML bellikleri we gurluşy bilen tanyş we amatly bolmak hökman peýdaly, sebäbi web çeşmesi bilen işleýärsiňiz.

Islegleri we BeautifulSoup kitaphanalaryny import etmek

Python programmirleme gurşawy gowy gurlansoň, islän adyňyz bilen täze faýl döredip bilersiňiz (mysal üçin nano ulanyp).

Talaplar kitaphanasy, Python programmalaryňyzyň içinde adam tarapyndan okalýan HTTP görnüşini ulanmaga mümkinçilik berýär, “BeautifulSoup” bolsa has çalt ýerine ýetirilýär. Iki kitaphanany almak üçin import beýanyny ulanyp bilersiňiz.

Web sahypasyny nädip ýygnamaly we derňemeli

Maglumat almak isleýän web sahypaňyzyň URL-ni ýygnamak üçin request.get () usulyny ulanyň. Ondan soň, “BeautifulSoup” obýektini ýa-da derňew agajyny dörediň. Bu obýekt resminamany Argument hökmünde alýar we soňra derňeýär. “BeautifulSoup” obýekti hökmünde ýygnalan, derňelýän we gurlan sahypa bilen, zerur maglumatlary ýygnamaga dowam edip bilersiňiz.

Jikme-jik web sahypasyndan islenýän teksti çykarmak

Haçan-da web maglumatlary ýygnamak isleseňiz, şol maglumatlaryň web sahypasynyň Resminama obýekt modeli (DOM) tarapyndan nähili beýan edilýändigini bilmelisiňiz. Web brauzeriňizde, gyzyklanma maglumatlarynyň bir bölegini emele getirýän elementleriň birine sag basyň (Windows ulanýan bolsaňyz) ýa-da CTRL + basyň (macOS ulanýan bolsaňyz). Mysal üçin, talyplaryň milletleri barada maglumat almak isleseňiz, okuwçynyň atlarynyň birine basyň. Kontekst menýusy açylýar we onuň içinde “Element” (Firefox üçin) ýa-da “Inspect” (Chrome üçin) ýaly menýu elementini görersiňiz. Degişli menýu elementine basyň we web dörediji gurallar brauzeriňizde peýda bolar.

“BeautifulSoup” ýönekeý, ýöne güýçli HTML derňew guraly bolup, web sahypalaryny döweniňizde köp çeýeligi üpjün edýär. Ulanylanda, web sahypasynyň şertlerini barlamak ýaly umumy gyryş düzgünlerini berjaý etmegi ýatdan çykarmaň; sahypada yzygiderli gözden geçirmek we sahypadaky üýtgeşmelere görä koduňyzy täzelemek. Python we BeautifulSoup bilen web sahypalaryny döwmek barada bu bilimiňize eýe bolsaňyz, taslamaňyz üçin zerur web maglumatlary aňsatlyk bilen alyp bilersiňiz.

mass gmail