Ignore:
Timestamp:
Nov 8, 2010, 12:34:41 AM (10 years ago)
Author:
roux
Message:

commissions élargies

Location:
cpc/trunk/project/batch/commission
Files:
2 edited

Legend:

Unmodified
Added
Removed
  • cpc/trunk/project/batch/commission/download_commission.pl

    r1219 r1741  
    3737
    3838@url = keys %url;
    39 push(@url, "http://www.assemblee-nationale.fr/13/budget/plf2010/commissions_elargies/cr/", "http://www.assemblee-nationale.fr/13/cr-mec/07-08/index.asp", "http://www.assemblee-nationale.fr/13/cr-mec/08-09/index.asp", "http://www.assemblee-nationale.fr/13/cr-mec/09-10/index.asp");
     39push(@url, "http://www.assemblee-nationale.fr/13/budget/plf2011/commissions_elargies/cr/", "http://www.assemblee-nationale.fr/13/budget/plf2010/commissions_elargies/cr/", "http://www.assemblee-nationale.fr/13/cr-mec/07-08/index.asp", "http://www.assemblee-nationale.fr/13/cr-mec/08-09/index.asp", "http://www.assemblee-nationale.fr/13/cr-mec/09-10/index.asp", "http://www.assemblee-nationale.fr/13/cr-mec/10-11/index.asp");
    4040$a = WWW::Mechanize->new();
    4141
     
    5555            $file =~ s/\//_/gi;
    5656            $file =~ s/\#.*//;
     57            $file =~ s/commissions_elargies_cr_c/commissions_elargies_cr_C/;
    5758            $size = -s "html/$file";
    5859            if ($size) {
  • cpc/trunk/project/batch/commission/parse_commission.pl

    r1690 r1741  
    55$url =~ s/^[^\/]+\///;
    66$url =~ s/_/\//g;
     7$url =~ s/commissions\/elargies/commissions_elargies/;
    78$source = $url;
    89
    910if ($url =~ /\/(\d+)-(\d+)\//) {
    10     $session = '20'.$1.'20'.$2;
     11  $session = '20'.$1.'20'.$2;
     12} elsif ($url =~ /\/plf(\d+)\//) {
     13  $annee = $1-1;
     14  $session = $annee.$1;
    1115}
    1216
     
    1923$string =~ s/<\/?i>/\//g;
    2024$string =~ s/\r//g;
     25
     26if ($url =~ /\/plf(\d+)\//) {
     27  $string2 = $string;
     28  $string2 =~ s/\n//g;
     29  $string2 =~ s/\<br\/?\>//ig;
     30  $string2 =~ s/&nbsp;/ /ig;
     31  $string2 =~ s/&#8217;/'/ig;
     32  $string2 =~ s/^.*Commission élargie//;
     33  $string2 =~ s/\(Application de l'article 120 du Règlement.*$//;
     34  $string2 =~ s/\<\/?[a-z0-9\s\-_="']+\>//ig;
     35  $string2 =~ s/\s+/ /g;
     36  $string2 =~ s/^\s+//;
     37  $string2 =~ s/[^a-z]+$//;
     38  $string2 =~ s/ Comm/, Comm/g;
     39  $commission = "Commission élargie : ".$string2;
     40}
    2141
    2242$mois{'janvier'} = '01';
     
    3353$mois{'décembre'} = '12';
    3454
     55$heure{'neuf'} = '09';
     56$heure{'dix'} = '10';
     57$heure{'onze'} = '11';
     58$heure{'douze'} = '12';
     59$heure{'treize'} = '13';
     60$heure{'quatorze'} = '14';
     61$heure{'quinze'} = '15';
     62$heure{'seize'} = '16';
     63$heure{'dix-sept'} = '17';
     64$heure{'dix-huit'} = '18';
     65$heure{'dix-neuf'} = '19';
     66$heure{'vingt'} = '20';
     67$heure{'vingt et une'} = '21';
     68$heure{'vingt-deux'} = '22';
     69$heure{'quarante'} = '45';
     70$heure{'quarante-cinq'} = '45';
     71$heure{'trente'} = '30';
     72$heure{'trente-cinq'} = '35';
     73$heure{'quinze'} = '15';
     74$heure{'zéro'} = '00';
     75$heure{'cinq'} = '00';
     76$heure{''} = '00';
     77
     78if ($string =~ /réunion.*commission.*commence[^\.]+à ([^\.]+)( |&nbsp;)heures?\s*([^\.]*)\./i) {
     79    $heure = $heure{$1}.':'.$heure{$3};
     80}
    3581
    3682#utf8::decode($string);
     
    200246        }
    201247    }
    202     if ($line =~ /\<[p]/i) {
     248    if ($line =~ /<h[1-9]+/i) {
     249        rapporteur();
     250#       print "$line\n";
     251        if (!$date && $line =~ /SOMdate|\"seance\"|h2/) {
     252            if ($line =~ /SOMdate|Lundi|Mardi|Mercredi|Jeudi|Vendredi|Samedi|Dimanche/i) {
     253              if ($line =~ /\w+\s+(\d+)[erme]*\s+([^\s\d]+)\s+(\d+)/i) {
     254                $date = sprintf("%04d-%02d-%02d", $3, $mois{lc($2)}, $1);
     255              }
     256            }
     257        }elsif ($line =~ /SOMseance|"souligne_cra"/i) {
     258            if ($line =~ /(\d+)\s*(h|heures?)\s*(\d*)/i) {
     259                $heure = sprintf("%02d:%02d", $1, $3 || "00");
     260            }
     261        }elsif(!$commission && $line =~ /groupe|commission|mission|délégation|office|comité/i) {
     262            if ($line =~ /[\>\|]\s*((Groupe|Com|Miss|Délé|Offic)[^\>\|]+)[\<\|]/) {
     263                $commission = $1;
     264                $commission =~ s/\s*$//;
     265            }
     266        }elsif($line =~ /SOMnumcr/i) {
     267            if ($line =~ /\s0*(\d+)/ && $1 > 1) {
     268                $cpt = $1*1000000;
     269            }
     270        }
     271    }
     272    if ($line =~ /\<[p]/i || ($line =~ /\<h[1-9]+ class="titre\d+/i && $line !~ /Commission/)) {
    203273        $found = 0;
    204274        $line =~ s/\s*\<\/?[^\>]+\>//g;
     
    233303            last;
    234304        }
    235     }elsif ($line =~ /<h[1-9]+/i) {
    236         rapporteur();
    237 #       print "$line\n";
    238         if (!$date && $line =~ /SOMdate|\"seance\"|h2/) {
    239             if ($line =~ /SOMdate|Lundi|Mardi|Mercredi|Jeudi|Vendredi|Samedi|Dimanche/i) {
    240               if ($line =~ /\w+\s+(\d+)[erme]*\s+([^\s\d]+)\s+(\d+)/i) {
    241                 $date = sprintf("%04d-%02d-%02d", $3, $mois{lc($2)}, $1);
    242               }
    243             }
    244         }elsif ($line =~ /SOMseance|"souligne_cra"/i) {
    245             if ($line =~ /(\d+)\s*(h|heures?)\s*(\d*)/i) {
    246                 $heure = sprintf("%02d:%02d", $1, $3 || "00");
    247             }
    248         }elsif(!$commission && $line =~ /groupe|commission|mission|délégation|office|comité/i) {
    249             if ($line =~ /[\>\|]\s*((Groupe|Com|Miss|Délé|Offic)[^\>\|]+)[\<\|]/) {
    250                 $commission = $1;
    251                 $commission =~ s/\s*$//;
    252             }
    253         }elsif($line =~ /SOMnumcr/i) {
    254             if ($line =~ /\s0*(\d+)/ && $1 > 1) {
    255                 $cpt = $1*1000000;
    256             }
    257         }
    258305    }
    259306}
Note: See TracChangeset for help on using the changeset viewer.