source: cpc/trunk/project/batch/depute/download_deputes.pl @ 1297

Last change on this file since 1297 was 1297, checked in by teymour, 11 years ago

creation des repertoires html

File size: 1.4 KB
Line 
1#!/usr/bin/perl
2
3use WWW::Mechanize;
4use HTML::TokeParser;
5
6$verbose = shift || 0;
7
8sub download_fiche {
9        $uri = $file = shift;
10        $file =~ s/^.*\/([^\/]+)/$1/;
11        print "$file\n" if ($verbose);
12        $a->get($uri);
13        mkdir html unless -e "html/" ;
14        open FILE, ">:utf8", "html/$file";
15        print FILE $a->content;
16        close FILE;
17        return $file;
18}
19$a = WWW::Mechanize->new();
20
21$a->get("http://www.assemblee-nationale.fr/13/tribun/xml/liste_alpha.asp");
22$content = $a->content;
23$p = HTML::TokeParser->new(\$content);
24while ($t = $p->get_tag('a')) {
25    if ($t->[1]{class} eq 'dep2') {
26        download_fiche($t->[1]{href});
27    }
28}
29
30$a->get("http://www.assembleenationale.fr/13/tribun/xml/liste_mandats_clos.asp");
31$content = $a->content;
32$p = HTML::TokeParser->new(\$content);
33open PM, ">finmandats.pm";
34while ($t = $p->get_tag('td')) {
35    if ($t->[1]{class} eq 'denom') {
36        $t = $p->get_tag('a');
37        if ($t->[1]{href}) {
38            $id = download_fiche($t->[1]{href});
39            $ret = system("grep -i 'mandat est clos' html/$id > /dev/null");
40            if (! $ret) {
41                $t = $p->get_tag('td');
42                $t = $p->get_tag('td');
43                $t = $p->get_tag('td');
44                $t = $p->get_text('/td');
45                $t =~ s/[^\d\/]//g;
46# Cas Estrosi dont la fin de mandat n'est pas mise à jour sur la page de l'AN
47                if ($id == 1263) {
48                  $t = '23/07/2009';
49                }
50                print PM "\$fin_mandat{'$id'} = '$t';\n";
51            }
52        }
53    }
54}
Note: See TracBrowser for help on using the repository browser.