Content scraping con Python: l’area News dell’homepage del sito della facoltà di Lettere e Filosofia dell’Università di Palermo
Due anni fa, con una dose di brio in gran parte ingiustificato, vi ho parlato di come avevo estratto le news dal sito del mio corso di laurea. Dopo poco tempo sono successe due cose:
- Il sito di cui sopra è stato rifatto totalmente, e viene offerto un feed nativamente (cosa che è sempre la migliore).
- È venuto alla ribalta Yahoo! Pipes, un servizio di Yahoo! che permette di fare molte manipolazioni su contenuti disponibili sul web con grande facilità, usando un’interfaccia davvero intuitiva per la creazione di applicazioni ad-hoc, chiamate pipe.
M’interessava rendere fruibile tramite feed la sezione news del sito della facoltà di Lettere e Filosofia dell’Università di Palermo. In realtà, avrei usato una pipe anche stavolta, se non fosse che chi ha creato il sito, credo per evitare l’indicizzazione dei contenuti da parte dei motori di ricerca, ha deciso di utilizzare JavaScript per generare i link contenenti le notizie. Inoltre, i link generati aprono una pagina contenente un frame in linea, entro il quale si trova la notizia vera e propria.
Il problema principale risiede nel fatto che il componente del framework atto al prelievo delle pagine sembra rendere palese il fatto che, non essendo un browser vero e proprio, non supporta JavaScript. Se fosse possibile prelevare le pagine senza effettuare alcuna elaborazione, il problema sarebbe facilmente risolvibile; dal momento che non è questo il caso, bisogna ricorrere a soluzioni esterne.
Per continuare nella mia serie di incompiute, ho messo mano a Python. Quel che segue è il mio primo script, siate indulgenti: il fatto che sembri funzionare e fare ciò che cercavo non implica che sia il modo migliore in cui questo tipo di dati possa essere gestito.




Commenti recenti