Semalt: Henter ut URLer fra websider med vakker suppe

Beautiful Soup er en Python-pakke på høyt nivå som brukes til å analysere XML- og HTML-dokumenter. Vakkert Soup Python-bibliotek oppretter et analysetre som brukes til å trekke ut nyttig informasjon fra HyperText Markup Language (HTML). Dette biblioteket er tilgjengelig for både Python 2 og Python 3 versjoner.

I de fleste tilfeller oppdager du at måldataene bare kan nås og brukes som en del av en webside. I et slikt tilfelle må du bruke en slik skrapeteknikk som kan hente ut data i formatene som kan analyseres. Det er her Beautiful Soup-biblioteket kommer inn.

Krav

Du trenger de riktige modulene for å bruke vakre suppe-biblioteket. For å komme i gang, må du installere Python 2.7 programmeringsspråk på maskinen din. I dette innlegget lærer du hvordan du skraper et nettsted og pakker ut alle nettadresser ved å bruke forespørsler og vakker suppe 4. HTML-parsing er en gjør-det-selv-oppgave, spesielt med teknisk hjelp fra Beautiful Soup.

Hvorfor bruke vakker suppe?

Beautiful Soup er en topprangerende Python-pakke som har blitt brukt til å skrape nettsteder og analysere HTML-koder siden 2004. Nylig erstattet Beautiful Soup 4 Beautiful Soup 3 i bransjen. Merk at BS4 fungerer på begge Python-versjonene, mens BS3 bare fungerer på Python 2.7. Biblioteket består av følgende innebygde funksjoner:

  • Kodingsfunksjon - Du trenger ikke å få panikk om kodinger når du har installert de nødvendige vakre suppe-modulene på maskinen din. Biblioteket er automatisert for å konvertere innganger til Unicode og utganger til UTF-8.
  • Navigasjonsfunksjon - Vakre supper tilbyr enkle å bruke metoder for å søke, navigere og endre et analysetre.

Hvordan bruker jeg vakre suppe-bibliotek?

Etter å ha installert Beautiful Soup på maskinen din, kan du begynne å bruke biblioteket. For å komme i gang, importer bs4-biblioteket på begynnelsen av Python-koden. Gi innhold eller URL til Beautiful Soup for å opprette et suppe-objekt. Biblioteket henter imidlertid ikke målwebsiden på seg selv. Her må du fullføre den oppgaven manuelt. Du kan også enkelt hente de foretrukne websidene ved å bruke en kombinasjon av Python og Beautiful Soup.

Roller av forespørsel bibliotek

For å skrape en side, må du laste ned den først. Du kan laste ned websider ved å bruke forespørselsbibliotek. Forespørsler bibliotek fungerer ved å lage en "GET" -forespørsel til webserverne, som igjen vil laste ned HTML-innhold på den foretrukne websiden.

Trekker ut URLer fra websider

Nå har du detaljert informasjon om vakre suppe-biblioteket. En kombinasjon av BS4-bibliotek og Python vil hjelpe deg med å hente en webside veldig raskt. For å trekke ut alle URL-ene fra målsiden din, bruk "finn alle" -metoden. Denne metoden vil gi deg en samling av elementer med taggen. Importer både vakker suppe og forespørsler fra bs4. Kjør koden din og skriv inn et nettsted eller en webside for å trekke ut URL-ene fra.

mass gmail