Changeset 2455


Ignore:
Timestamp:
Nov 3, 2011, 5:29:54 PM (9 years ago)
Author:
komodo
Message:

fix CMP bis

File:
1 edited

Legend:

Unmodified
Added
Removed
  • cpc/branches/senat/project/batch/commission/parse_commission.pl

    r2454 r2455  
    1919$content =~ s/(<td[^>]*>)(\s*<\/?(a|strong|p|em)[^>]*>)+/$1/gi;
    2020$content =~ s/<\/?(a|strong|p|em)[^>]*>\s*<\/td>/<\/td>/gi;
    21 
     21$content =~ s/<br\/?\s?>/ /ig;
     22$content =~ s/[ \t]+/ /g;
     23$content =~ s/&(#160|nbsp);/ /ig;
     24$content =~ s/\s+/ /g;
    2225$content =~ s/<\/(p|h[1234]|ul|div)>/<\/$1>\n/gi;
    23 
    2426$content =~ s/(<h\d[^>]*>)\s*<b>/$1/gi;
    2527$content =~ s/<\/b>\s*(<\/h\d[^>]*>)/$1/gi;
    26 $content =~ s/[ \t]+/ /g;
    27 $content =~ s/&(#160|nbsp);/ /ig;
    2828
    2929%fonctions = ();
     
    9999        }
    100100#       print ; print "\n";
    101         if ((!/\d{4}\-\d{4}/) && (/<(h[123])[^>]*>(\s*<[^>]*>)*([^<\(]+\d{4})(\W*<[^>]*>)*<\/(h[123])>/i)) {
     101        if ((!/\d{4}\-\d{4}/) && (/<(h[123])[^>]*>(\s*<[^>]*>)*([^<\(]+\d{4})(\W*<[^>]*>)*\W*<\/(h[123])>/i)) {
    102102#print STDERR "date: $3 $url_year\n";
    103103                @date = datize($3, $url_year);
     
    117117                }
    118118        }
    119         next if (!$begin);
    120         if (/<h[234]>(\s*<[^>]*>)*([^<]+)<\/h[234]>/) {
     119        if (/<h[1234][^>]*>(\s*<[^>]*>)*([^<]+)<\/h[1234]>/) {
    121120                $titre = $2;
    122                 print_inter();
     121                next if ($titre =~ /^((com)?mission|comptes rendus |office|délégation|groupe de travail)/i && $titre !~/commission mixte paritaire/i);
     122                print_inter() if($timestamp);
    123123                $context = $titre;
    124124                setfonction($titre);
     
    130130                $is_newcontext = 1;
    131131        }
     132        next if (!$begin);
    132133        $source = "#$1" if (/name="([^"]+)"/);
    133134
     
    165166                        $tmpintervenant =~ s/<[^>]*>//g;
    166167                        if ($tmpintervenant =~ s/^Mm\./M./i || $tmpintervenant =~ s/^Mmes/Mme/i) {
     168                                $tmpintervenant =~ s/ et /, /g;
    167169                                $tmpintervenant =~ s/^([^,]+)(,[^,]+)*,\s*([^,]*)\W*$/$1/g;
    168170                                $tmpfonction = $3;
Note: See TracChangeset for help on using the changeset viewer.