bsf-devel
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: hola


From: Alvaro Herrera
Subject: Re: hola
Date: Thu, 3 Apr 2003 22:45:48 -0400
User-agent: Mutt/1.4i

On Thu, Apr 03, 2003 at 09:50:55PM -0400, Mañungo wrote:
> At 21:09 03-04-2003, you wrote:

> Mi idea de whitelist y blacklist es que contengan las direcciones de los 
> sender del e-mail que estoy forwareando.
> Esto se traduce chanchamente a buscar la cadena: ">From: e-mail" (notese 
> el > del e-mail forwardeado). Claramente no es la mejor solucion, pero 
> funciona.

Hum, estas buscando "From " o "From:"?  Son headers distintos;
probablemente lo util es el segundo, pero el que tiene el > al principio
es el primero (por eso la pregunta).


> Es cierto que son muchos falsos positivos (y de hecho creo que eran mas, 
> pero he reseteado las estadisticas), pero por otro lado, los archivos de 
> datos parten completa y absolutamente vacios (el programa no sabe nada).

Ok, seria interesante saber que tanto falla el sistema despues de un
periodo razonable de entrenamiento.


> >Que guardas en ellos exactamente, y en que formato?
> 
> Numero de ocurrencias por token. Nada comprimido ni nada.

Una por linea, en un archivo de texto?

Me da la impresion de que puede ganarse _mucha_ eficiencia usando otro
formato (por ejemplo btrees como lo que hizo Aldrin); la busqueda
secuencial eventualmente te va a terminar matando el rendimiento.  Esto
te permite crecer el tamaño de la tabla de puntajes con busqueda O(1).


> >Como haces la tokenizacion? (separacion del mail en componentes
> >"palabras")
> 
> Actualmente busco la expresion /[a-z][a-z0-9_\-]{2,40}/i;

Huh, y por que no [[:alpha:]][[:alnum:]]{2,40} ?  (en particular le
sacas la opcion "i")

En todo caso es super interesante la idea de cortar los token a los 41
caracteres... ahora que miro mi tabla de puntajes veo un monton de cosas
demasiado largas que probablemente aportan poco en ambos sentidos.

-- 
Alvaro Herrera (<alvherre[a]dcc.uchile.cl>)
"El sabio habla porque tiene algo que decir;
el tonto, porque tiene que decir algo" (Platon).




reply via email to

[Prev in Thread] Current Thread [Next in Thread]