[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: hola
From: |
Alvaro Herrera |
Subject: |
Re: hola |
Date: |
Thu, 3 Apr 2003 22:45:48 -0400 |
User-agent: |
Mutt/1.4i |
On Thu, Apr 03, 2003 at 09:50:55PM -0400, Mañungo wrote:
> At 21:09 03-04-2003, you wrote:
> Mi idea de whitelist y blacklist es que contengan las direcciones de los
> sender del e-mail que estoy forwareando.
> Esto se traduce chanchamente a buscar la cadena: ">From: e-mail" (notese
> el > del e-mail forwardeado). Claramente no es la mejor solucion, pero
> funciona.
Hum, estas buscando "From " o "From:"? Son headers distintos;
probablemente lo util es el segundo, pero el que tiene el > al principio
es el primero (por eso la pregunta).
> Es cierto que son muchos falsos positivos (y de hecho creo que eran mas,
> pero he reseteado las estadisticas), pero por otro lado, los archivos de
> datos parten completa y absolutamente vacios (el programa no sabe nada).
Ok, seria interesante saber que tanto falla el sistema despues de un
periodo razonable de entrenamiento.
> >Que guardas en ellos exactamente, y en que formato?
>
> Numero de ocurrencias por token. Nada comprimido ni nada.
Una por linea, en un archivo de texto?
Me da la impresion de que puede ganarse _mucha_ eficiencia usando otro
formato (por ejemplo btrees como lo que hizo Aldrin); la busqueda
secuencial eventualmente te va a terminar matando el rendimiento. Esto
te permite crecer el tamaño de la tabla de puntajes con busqueda O(1).
> >Como haces la tokenizacion? (separacion del mail en componentes
> >"palabras")
>
> Actualmente busco la expresion /[a-z][a-z0-9_\-]{2,40}/i;
Huh, y por que no [[:alpha:]][[:alnum:]]{2,40} ? (en particular le
sacas la opcion "i")
En todo caso es super interesante la idea de cortar los token a los 41
caracteres... ahora que miro mi tabla de puntajes veo un monton de cosas
demasiado largas que probablemente aportan poco en ambos sentidos.
--
Alvaro Herrera (<alvherre[a]dcc.uchile.cl>)
"El sabio habla porque tiene algo que decir;
el tonto, porque tiene que decir algo" (Platon).
- hola, Mañungo, 2003/04/01
- Re: hola, Alvaro Herrera, 2003/04/03
- Re: hola, Mañungo, 2003/04/03
- Re: hola,
Alvaro Herrera <=
- Re: hola, Mañungo, 2003/04/03
- Re: hola, Alvaro Herrera, 2003/04/03
- Perl y flock, Mañungo, 2003/04/12
- Re: Perl y flock, Ricardo J. Lemus C., 2003/04/12
- Re: Perl y flock, Mañungo, 2003/04/12
- Re: Perl y flock, Ricardo J. Lemus C., 2003/04/12
- Re: Perl y flock, Alvaro Herrera, 2003/04/12
- Re: Perl y flock, Alvaro Herrera, 2003/04/12
- Duda sobre Bayes, Mañungo, 2003/04/13
- Re: Duda sobre Bayes, Aldrin Martoq, 2003/04/14