Changeset 2442


Ignore:
Timestamp:
Nov 2, 2011, 3:57:57 AM (9 years ago)
Author:
komodo
Message:

debug hemicycle + commissions

Location:
cpc/branches/senat/project/batch
Files:
1 added
3 edited

Legend:

Unmodified
Added
Removed
  • cpc/branches/senat/project/batch/commission/compute_all.sh

    r2401 r2442  
    11#!/bin/bash
    22
     3rm -rf out.sv
    34mkdir -p out
     5cp modified/* html/
    46for i in html/http* ; do
    57file=$(echo $i | sed 's/html\///') ;
    6 echo $file ;
     8echo $file
    79perl parse_commission.pl html/$file > out/$file ;
    810done
     11
     12cp -r out out.sv
  • cpc/branches/senat/project/batch/common/common.pm

    r2435 r2442  
    5555$heure{'zéro'} = '00';
    5656$heure{'cinq'} = '00';
     57$heure{'midi'} = '12';
    5758$heure{''} = '00';
    5859
     
    6061        my $h = shift;
    6162        $h =~ s/\W+$//;
     63        $h .= " heures zéro" if ($h !~ /heures/);
    6264        $h =~ /(\S+) heures\s*(\S*)/;
    6365        return sprintf("%02d:%02d", $heure{$1}, $heure{$2});
  • cpc/branches/senat/project/batch/hemicycle/parse_hemicycle.pl

    r2439 r2442  
    1919
    2020$session = '';
     21%num_lois = ();
    2122
    2223if ($doc =~ /ance du (\d+e?r? \S+ \d+)/i) {
     
    4748sub print_inter {
    4849        if ($heure && $intervention && $intervention ne "<p></p>") {
     50                $intervention =~ s/\s*,\s*/, /g;
    4951                $timestamp += 20;
    5052                $context = $bigcontext;
     
    5658                        } else {
    5759                                $resetcontexte = 0;
    58                                 if ($intervention !~ /séance.*reprise.*(poursuiv|continu|repren)ons.*(discussion|examen|débat)/) {
     60                                if ($intervention !~ /Nous poursuivons / && $intervention !~ /séance.*reprise.*(amendement.*présenté|(poursuiv|continu|repren)ons.*(discussion|examen|débat)|dans.*discussion.*sommes.*(arrivés|parvenus)|parole.*répondre.*orateurs|je.*mets.*aux.*voix|nous.*allons.*procéder.*(scrutin|délibération))/) {
     61                                        $oldbigcontext = $bigcontext;
    5962                                        $bigcontext = "";
    6063                                        $subcontext = "";
     
    6669
    6770                $cpt = 0;
    68                 if ($context =~ /procès verbal|ordre du jour|Conf[&#\d;é]+rence des pr[&#\d;é]+sidents/i) {
     71                if ($context =~ /procès verbal|ordre du jour|Conf[&#\d;é]+rence des pr[&#\d;é]+sidents|question.*(crible|orale|gouvernement)/i) {
    6972                        $numeros_loi = '';
    7073                }elsif ($subcontext !~ /article|discussion g/i && $intervention =~ /((projet|proposition|motion|lettre)\s[^<]*(n°|n<sup>os?<\/sup>|nos?|n&[^;]+;&[^;]+;)[^<\.]{1,5}\d[^<\.]+)/i && $intervention !~ /amendements? n/) {
     
    7477                          $docs =~ s/&[^;]*;//g;
    7578                          if ($docs =~ /(\d+)([\(\[\, ]+(\d{4}[- ]\d{4})|)/) {
    76                           $numeros_loi = '' if (!$cpt); $cpt++;
     79                          $numeros_loi = $num_lois{$bigcontext} if (!$cpt); $cpt++;
    7780                          while ($docs =~ /(\d+)([\(\[\, ]+(\d{4}[- ]\d{4})|)/g) {
    7881                                 if ($3) {
     
    8588                          }
    8689                          chop($numeros_loi) if ($cpt);
    87                 }
     90                          $num_lois{$bigcontext} = $numeros_loi if ($cpt);
     91                }
     92                $numeros_loi = $num_lois{$bigcontext} if (!$numeros_loi);
    8893                if ($intervention =~ /amendements? n([^<]+)/) {
    8994                                        $amdt = $1;
     
    102107                $secondinter = $1 if ($inter =~ s/ et (.*)//) ;
    103108                $json  = '{"contexte": "'.quotize($context).'", "intervention": "'.quotize($intervention).'", "timestamp": "'.$timestamp.'", "date": "'.$date.'", "source": "'.$url_source.$source.'", "heure":"'.$heure.'", "intervenant": "'.name_lowerize($inter,1).'", "fonction": "'.$fonction.'", "intervenant_url": "'.$url_inter.'", "session":"'.$session.'"';
    104                 $json .= ', "numeros_loi":"'.$numeros_loi.'"' if ($numeros_loi);
    105                 $json .= ', "amendements":"'.$amendements.'"' if ($amendements);
     109                $json .= ', "numeros_loi":"'.$numeros_loi.'"' if ($numeros_loi && $context);
     110                $json .= ', "amendements":"'.$amendements.'"' if ($amendements && $context);
    106111                $json .= "}\n";
    107112                utf8::encode($json);
     
    109114                if ($secondinter) {
    110115                $json  = '{"contexte": "'.quotize($context).'", "intervention": "'.quotize($intervention).'", "timestamp": "'.$timestamp.'", "date": "'.$date.'", "source": "'.$url_source.$source.'", "heure":"'.$heure.'", "intervenant": "'.name_lowerize($secondinter,1).'", "fonction": "", "intervenant_url": "'.$url_inter.'", "session":"'.$session.'"';
    111                 $json .= ', "numeros_loi":"'.$numeros_loi.'"' if ($numeros_loi);
    112                 $json .= ', "amendements":"'.$amendements.'"' if ($amendements);
     116                $json .= ', "numeros_loi":"'.$numeros_loi.'"' if ($numeros_loi && $context);
     117                $json .= ', "amendements":"'.$amendements.'"' if ($amendements && $context);
    113118                $json .= "}\n";
    114119                utf8::encode($json);
     
    137142                $source = "#$2";
    138143        }
    139         if (/<span class="info_entre_parentheses">\s*\((.*)<\/span>([\.\s\)]*)/) {
    140                 $didasc = $1;
     144        if (/<(i|span class="info_entre_parentheses")>\s*\((.*)<\/(i|span)>([\.\s\)]*)/) {
     145                $didasc = $2;
    141146                $didasc =~ s/\)$//;
     147                $didasc =~ s/<[^>]*>//g;
    142148                $didasc =~ s/vingt et une/vingt-et-une/gi;
    143                 if ($didasc =~ /(ouverte|reprise) (&#224;|à) (\S+ heures\s*\S*)\W/) {
     149                if ($didasc =~ /(ouverte|reprise) (&#224;|à) (midi\s*\S*|\S+ heures\s*\S*)\W/) {
    144150                        $h = heurize($3);
    145151                        ($htab) = split /:/, $h;
    146                         if (!$heure || ($htab >= 14 && $oldhtab < 12) || ($htab >= 20 && $oldhtab < 20)) {
     152                        if (!$heure || ($htab > 13 && $oldhtab < 14) || ($htab > 20 && $oldhtab < 21)) {
    147153                            print_inter();
    148154                            $intervention = "<p>$didasc</p>";
     
    204210        }
    205211
    206         while (s/([^>]*)<span class="info_entre_parentheses">\(([^\)]*)\)?<\/span>([\.\s\)]*)//) {
     212        while (s/([^>]*)<(i|span class="info_entre_parentheses")>\(([^\)]*)\)?<\/(i|span)>([\.\s\)]*)//) {
    207213                $i = $1;
    208214                $i =~ s/<[^>]*>//g;
    209215                $i =~ s/\s+/ /g;
    210216                $intervention .= "<p>".$i."</p>";
    211                 $didasc = $2;
     217                $didasc = $3;
    212218                $didasc =~ s/<[^>]*>//gi;
    213219                $didasc =~ s/\)//g;
     
    242248                        if ($iscontext eq '1') {
    243249                            if (!/^\s*PR(É|&#201;)SIDENCE DE /) {
     250                                $resetcontexte = 0;
    244251                                $bigcontext = $_;
    245252                                $subcontext = '';
     
    249256                        }else{
    250257                                if (!/^\s*(vice-)?pr(é|&#233;)sident/) {
     258                                $resetcontexte = 0;
     259                                $bigcontext = $oldbigcontext if (!$bigcontext);
    251260                                $subcontext = $_;
    252261                                $subcontext =~ s/<[^>]+>//g;
Note: See TracChangeset for help on using the changeset viewer.