Obținerea de o listă a tuturor bisericilor într-o anumită stare, folosind Python

voturi
-3

Sunt destul de bine cu Python, astfel încât pseudo-cod vor fi suficiente atunci când detaliile sunt triviale. Te rog adu-mi început la sarcina - cum se duc despre crawling pe net pentru adresele melc mail ale bisericilor în starea mea. Odată ce am o singură linie, cum ar fi „123 Old West Road # 3 Old Lyme orașului MD 01234“, am putea, probabil, analiza în oraș, stat, Strada, numărul, apt suficient încercare și eroare. Problema mea este - dacă am folosi pagini albe on-line, atunci cum am face cu toate junk HTML, tabele HTML, anunțuri, etc? Nu cred că am nevoie de numărul lor de telefon, dar nu va face rău - pot arunca întotdeauna o dată analizat. Chiar dacă soluția este semi-manual (cum ar fi salva pdf, acrobat apoi deschis, salvați ca text) - Aș putea fi fericit cu ea încă. Mulțumiri! Naiba, voi accepta chiar și fragmente de cod Perl - Pot să le traduc eu.

Întrebat 14/12/2009 la 23:29
sursa de către utilizator
În alte limbi...                            


5 răspunsuri

voturi
2

Încercați lynx --dump <url>să descărcați paginile web. Toate etichetele HTML supărătoare va fi separat de ieșire, și toate link - urile din pagina va apărea împreună.

Publicat 14/12/2009 la 23:36
sursa de către utilizator

voturi
2

Ai putea folosi mecanizarea . Este o bibliotecă Python care simulează un browser, astfel încât ai putea accesa cu crawlere prin paginile albe ( în mod similar cu ceea ce faci manual).

Pentru a face față cu piton "html junk are o bibliotecă pentru asta: BeautifulSoup Este un mod minunat de a obține datele dorite de HTML (desigur , aceasta presupune că știi un pic despre HTML, după cum se va mai trebuie să mergeți copac parsare).

Actualizare: În ceea ce privește întrebarea dvs. follow-up cu privire la modul să faceți clic pe mai multe pagini. mecanizarea este o bibliotecă pentru a face doar asta. Aruncati o privire mai atentă la exemplele lor, esp. metoda follow_link. Așa cum am spus că simulează un browser, astfel încât „clic“ poate fi realizată rapid în Python.

Publicat 14/12/2009 la 23:42
sursa de către utilizator

voturi
2

Ceea ce încerci să faci este numit decopertare sau răzuire web.

Dacă face unele căutări pe Python și răzuirea , puteți găsi o listă de instrumente care vor ajuta.

(Nu am mai folosit Scrapy, dar este site-ul pare promițător :)

Publicat 14/12/2009 la 23:46
sursa de către utilizator

voturi
2

Frumoasa Supa este o brainer. Iată un site pe care s - ar putea începe de la http://www.churchangel.com/ . Ei au o listă foarte mare , iar formatarea este foarte regulat - traducere: ușor de instalat BSoup pentru a îndepărta.

Publicat 15/12/2009 la 00:17
sursa de către utilizator

voturi
1

script Python s-ar putea să nu fie cel mai bun instrument pentru acest loc de muncă, dacă sunteți în căutarea doar pentru adresele bisericilor într-o anumită zonă geografică.

Recensământul din SUA oferă un set de date de biserici pentru a fi utilizate cu sistemele de informații geografice. Dacă a găsi toate xîntr - o zonă spațială este o problemă recurentă, să investească în învățarea unei GIS. Apoi , puteți aduce abilitățile Python suportă pe mai multe sarcini geografice.

Publicat 15/12/2009 la 00:34
sursa de către utilizator

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more