Sunt destul de bine cu Python, astfel încât pseudo-cod vor fi suficiente atunci când detaliile sunt triviale. Te rog adu-mi început la sarcina - cum se duc despre crawling pe net pentru adresele melc mail ale bisericilor în starea mea. Odată ce am o singură linie, cum ar fi „123 Old West Road # 3 Old Lyme orașului MD 01234“, am putea, probabil, analiza în oraș, stat, Strada, numărul, apt suficient încercare și eroare. Problema mea este - dacă am folosi pagini albe on-line, atunci cum am face cu toate junk HTML, tabele HTML, anunțuri, etc? Nu cred că am nevoie de numărul lor de telefon, dar nu va face rău - pot arunca întotdeauna o dată analizat. Chiar dacă soluția este semi-manual (cum ar fi salva pdf, acrobat apoi deschis, salvați ca text) - Aș putea fi fericit cu ea încă. Mulțumiri! Naiba, voi accepta chiar și fragmente de cod Perl - Pot să le traduc eu.
Obținerea de o listă a tuturor bisericilor într-o anumită stare, folosind Python
sursa de către utilizator Hamish Grubijan
În alte limbi...
Încercați lynx --dump <url>să descărcați paginile web. Toate etichetele HTML supărătoare va fi separat de ieșire, și toate link - urile din pagina va apărea împreună.
Ai putea folosi mecanizarea . Este o bibliotecă Python care simulează un browser, astfel încât ai putea accesa cu crawlere prin paginile albe ( în mod similar cu ceea ce faci manual).
Pentru a face față cu piton "html junk are o bibliotecă pentru asta: BeautifulSoup Este un mod minunat de a obține datele dorite de HTML (desigur , aceasta presupune că știi un pic despre HTML, după cum se va mai trebuie să mergeți copac parsare).
Actualizare: În ceea ce privește întrebarea dvs. follow-up cu privire la modul să faceți clic pe mai multe pagini. mecanizarea este o bibliotecă pentru a face doar asta. Aruncati o privire mai atentă la exemplele lor, esp. metoda follow_link. Așa cum am spus că simulează un browser, astfel încât „clic“ poate fi realizată rapid în Python.
Ceea ce încerci să faci este numit decopertare sau răzuire web.
Dacă face unele căutări pe Python și răzuirea , puteți găsi o listă de instrumente care vor ajuta.
(Nu am mai folosit Scrapy, dar este site-ul pare promițător :)
Frumoasa Supa este o brainer. Iată un site pe care s - ar putea începe de la http://www.churchangel.com/ . Ei au o listă foarte mare , iar formatarea este foarte regulat - traducere: ușor de instalat BSoup pentru a îndepărta.
script Python s-ar putea să nu fie cel mai bun instrument pentru acest loc de muncă, dacă sunteți în căutarea doar pentru adresele bisericilor într-o anumită zonă geografică.
Recensământul din SUA oferă un set de date de biserici pentru a fi utilizate cu sistemele de informații geografice. Dacă a găsi toate xîntr - o zonă spațială este o problemă recurentă, să investească în învățarea unei GIS. Apoi , puteți aduce abilitățile Python suportă pe mai multe sarcini geografice.