Chrome Web Scraper Tutorial di Semalt Expert

Se stai utilizzando Google Chrome, esiste un'estensione per il tuo browser che può aiutarti a raschiare le pagine web. È noto come '' Scrapper '' e può essere utilizzato senza problemi. Scrapper ti aiuterà a scartare il contenuto di un sito Web e a caricare i risultati su documenti Google.

Come eliminare un sito Web utilizzando l'estensione Scraper?

1. Seleziona Chrome Web Store in Google Chrome;

2. Nelle estensioni, cerca "Scrapper";

3. Il primo risultato della ricerca è l'estensione nota come "Scrapper";

4. Seleziona il pulsante elencato come '' Aggiungi a Chrome ";

5. Tornare alla lista dei parlamentari britannici;

6. Fare clic sul seguente collegamento ;

7. Ora cerca un MP e assicurati che la voce sia contrassegnata;

8. Fare clic con il tasto destro del mouse per selezionare l'opzione "Raschia simile ...";

9. La console di Scrapper apparirà in un'altra finestra;

10. Visualizza il contenuto scaricato nella console dello scraper;

11. Per assicurarti che il contenuto sia salvato come foglio di lavoro Google, seleziona "Salva in Google Documenti ..."

Raschiatura estesa

Prima di attenersi a questa ricetta, è utile comprendere le basi dell'HTML. Ad esempio, puoi leggere una breve introduzione all'HTML tramite questo link

Immaginiamo di essere interessati a tutti i film interpretati da Asia Argento, una famosa attrice italiana.

1. C'è un archivio molto dettagliato di attori in IMDB. Il sito di Asia Argento è: http://www.imdb.com/name/nm0000782/;

2. Qui puoi vedere tutti i ruoli interpretati dall'attrice. Cominciamo a scartare le informazioni che ci interessano;

3. Prova a grattarlo come descritto sopra;

4. Vedrai che l'elenco è leggermente distorto. Ciò è dovuto al fatto che l'elenco qui può essere strutturato in modo diverso;

5. Vai alla console del raschietto. In alto a sinistra, vedrai la piccola casella che dice XPath;

6. Xpath è una sorta di linguaggio di query che funziona per XML e HTML;

7. XPath può aiutarti a individuare le parti della pagina che ti interessano. La prossima cosa è trovare un elemento appropriato e scrivere XPath per esso;

8. Adesso sistemiamo il nostro tavolo;

9. Vedrai che il nostro XPath esistente, che ha tutti i dati necessari è "// div [3] / div [3] / div [2] / div";

10. XPath informa il sistema di visualizzare il documento HTML e scegliere il terzo elemento, quindi il secondo elemento e poi tutti;

11. Ma vorremmo che i nostri dati fossero separati;

12. Utilizzare la sezione colonne nella console per scrapper per farlo;

13. Troviamo prima il nostro titolo РЂњР‚Ђњ Use Inspect Element per visualizzare il titolo;

14. Controlla il titolo all'interno di un tag. Aggiungi il tag a XPath;

15. L'espressione sembra funzionare in modo appropriato, quindi rendila la nostra prima colonna;

16. Nella sezione "Colonne", sostituire il nome della prima colonna in "titolo";

17. Aggiungi XPath ad esso;

18. Nella sezione colonna, gli XPath sono relativi e significa che "./b" sceglierà l'elemento <b>

19. In XPath per la colonna del titolo, aggiungi "./b" e seleziona "raschia";

20. Ora continuiamo per un anno. Gli anni possono essere trovati in un arco;

21. Crea una nuova colonna selezionando il più piccolo accanto alla colonna per il titolo;

22. Utilizzando XPath "./span" creare una colonna per "anno";

23. Fai clic su Scrape e visualizza come è stato aggiunto l'anno;

24. Fatto!