source: cpc/trunk/project/batch/depute/download_deputes.pl @ 1141

Last change on this file since 1141 was 1141, checked in by roux, 11 years ago

Cas date fin mandat Estrosi pas a jour sur le site de l'an

File size: 1.3 KB
Line 
1#!/usr/bin/perl
2
3use WWW::Mechanize;
4use HTML::TokeParser;
5
6$verbose = shift || 0;
7
8sub download_fiche {
9        $uri = $file = shift;
10        $file =~ s/^.*\/([^\/]+)/$1/;
11        print "$file\n" if ($verbose);
12        $a->get($uri);
13        open FILE, ">:utf8", "html/$file";
14        print FILE $a->content;
15        close FILE;
16        return $file;
17}
18$a = WWW::Mechanize->new();
19
20$a->get("http://www.assemblee-nationale.fr/13/tribun/xml/liste_alpha.asp");
21$content = $a->content;
22$p = HTML::TokeParser->new(\$content);
23while ($t = $p->get_tag('a')) {
24    if ($t->[1]{class} eq 'dep2') {
25        download_fiche($t->[1]{href});
26    }
27}
28
29$a->get("http://www.assembleenationale.fr/13/tribun/xml/liste_mandats_clos.asp");
30$content = $a->content;
31$p = HTML::TokeParser->new(\$content);
32open PM, ">finmandats.pm";
33while ($t = $p->get_tag('td')) {
34    if ($t->[1]{class} eq 'denom') {
35        $t = $p->get_tag('a');
36        if ($t->[1]{href}) {
37            $id = download_fiche($t->[1]{href});
38            $ret = system("grep -i 'mandat est clos' html/$id > /dev/null");
39            if (! $ret) {
40                $t = $p->get_tag('td');
41                $t = $p->get_tag('td');
42                $t = $p->get_tag('td');
43                $t = $p->get_text('/td');
44                $t =~ s/[^\d\/]//g;
45# Cas Estrosi dont la fin de mandat n'est pas mise à jour sur la page de l'AN
46                if ($id == 1263) {
47                  $t = '23/07/2009';
48                }
49                print PM "\$fin_mandat{'$id'} = '$t';\n";
50            }
51        }
52    }
53}
Note: See TracBrowser for help on using the repository browser.