Changeset 2412


Ignore:
Timestamp:
Oct 29, 2011, 2:47:25 PM (9 years ago)
Author:
teymour
Message:

Réuni les listes de parlementaires spéré par un saut de page
Limite l'intégration de nom qui ne sont pas des personnes

File:
1 edited

Legend:

Unmodified
Added
Removed
  • cpc/branches/senat/project/batch/jo/parse_jo.pl

    r2406 r2412  
    3737    }
    3838}
     39$lines =~ s/\<hr\>\<a[^>]+\><\/a>[^<]*JOURNAL OFFICIEL DE LA RÉPUBLIQUE FRANÇAISE Texte \d+ sur \d+//gi;
     40$lines =~ s/\.\<br\>//gi;
     41$lines =~ s/ +\. +/ /g;
     42$lines =~ s/ +\. +/ /g;
     43
     44$lines =~ s/\.<br>\n/<br>\n<br>/g;
    3945$lines =~ s/Membres? présents? ou excusés?//;
    4046$lines =~ s/<\/b>,?à/<\/b>\nà/g;
     
    7783#    print "l: $lines\n";
    7884    if (/(Comité\W|Commission\W|Mission\W|Office|Observatoire|Délégation)/i && !/Ordre du jour/ && !/(réunion|séance|nommé)/i && !/Membres/i && !/^\s*\(/ && length($_) < 250) {
    79         $commission = $_;
    80         $commission =~ s/.*\W(Comité|Commission|Mission|Office|Observatoire|Délégation)/$1/i;
    81         $commission =~ s/\s*[\(:].*//;
    82         $commission =~ s/[, \)]+$//;
    83         $commission =~ s/\W+$//;
     85        $commissiontmp = $_;
     86        $commissiontmp =~ s/.*\W(Comité|Commission|Mission|Office|Observatoire|Délégation)/$1/i;
     87        $commissiontmp =~ s/\s*[\(:].*//;
     88        $commissiontmp =~ s/[, \)]+$//;
     89        $commissiontmp =~ s/\W+$//;
     90        $commission = $commissiontmp if ($commissiontmp =~ /^[A-Z]/);
    8491        $on = 0;
    8592    }
     
    97104        $on = 0;
    98105    }
    99     if (/(<i>Excus|<i>Ont d|Ordre|Convocation|Excusés|<b>Nomination)/) {
     106    if (/(<i>Excus|<i>Ont d|Ordre|Convocation|Excusés|<b>Nomination|^Nomination)/) {
    100107        $on = 0;
    101108    }
     
    108115            $d =~ s/\([^\)]+\)//;
    109116            $d =~ s/^\W+//;
    110             $d =~ s/\W+$//;
     117            $d =~ s/[^àâéèêëîïôùûü\w]+$//;
     118            $d =~ s/ \(.*//;
    111119
    112             if ($d =~ s/(.*) (et |; |\d+| ?\. ?)(.*)/$1/) {
     120            if ($d =~ s/(.*)(,| et | ; | \d+| +\. ?)(.*)/$1/) {
    113121                $nextd = $3;
    114122            }
    115             $d =~ s/( et|\W+)$//;
     123            $d =~ s/( et|[^àâéèêëîïôùûü\w]+)$//;
    116124            $d =~ s/ ?- ?/-/;
    117125            $d =~ s/  */ /;
     
    119127            next if (length($d) < 3);
    120128            next if ($d =~ /^.\>/);
     129            next unless ($d =~ /[A-Z]/);
     130            next if ($d =~ /[A-Z]{2}/);
     131            next unless ($d =~ /^[A-Z]/);
     132
    121133            print '{ ';
    122134            print '"date": "'.$date.'",';
     
    131143                $d =~ s/ ?- ?/-/;
    132144                $d =~ s/  */ /;
     145                next unless ($d =~ /[A-Z]/);
     146                next if ($d =~ /[A-Z]{2}/);
     147                next unless ($d =~ /^[A-Z]/);
    133148                print '{ ';
    134149                print '"date": "'.$date.'",';
Note: See TracChangeset for help on using the changeset viewer.