bsf-devel
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: hola


From: Mañungo
Subject: Re: hola
Date: Thu, 03 Apr 2003 23:39:48 -0400

At 22:45 03-04-2003, you wrote:
Hum, estas buscando "From " o "From:"?  Son headers distintos;
probablemente lo util es el segundo, pero el que tiene el > al principio
es el primero (por eso la pregunta).

Exactamente: />From:[^<]*<([^>]+)>/
Es que eudora encierra los e-ail entre corchete _siempre_.

Ok, seria interesante saber que tanto falla el sistema despues de un
periodo razonable de entrenamiento.

Sip.

Una por linea, en un archivo de texto?

Me da la impresion de que puede ganarse _mucha_ eficiencia usando otro
formato (por ejemplo btrees como lo que hizo Aldrin); la busqueda
secuencial eventualmente te va a terminar matando el rendimiento.  Esto
te permite crecer el tamaño de la tabla de puntajes con busqueda O(1).

De hecho. Pero hasta ahora los archivos son tan chicos!
Ademas, sigo con la idea que para resolver el ultimo 20% del spam hay que usar nuevas tecnicas (ideas?)


Huh, y por que no [[:alpha:]][[:alnum:]]{2,40} ?  (en particular le
sacas la opcion "i")

Para mantener pequenna las tablas de ocurrencias/tokens (por eso bote la idea de guardar . _ - @ )


En todo caso es super interesante la idea de cortar los token a los 41
caracteres... ahora que miro mi tabla de puntajes veo un monton de cosas
demasiado largas que probablemente aportan poco en ambos sentidos.

Si. Yo mire la tabla y los strings de +40 caracteres era:
-> 10% urls interminables, con cgi y parametros
-> 90% mime mal skipeado

Creo que hasta se podria cortar en 20 caracteres y el resultado seria igual. Tambien depende del conjunto de caracteres a considerar, eso si.

Por lo pronto, voy a mirar los btrees que usa Aldrin, pero me da lata a priori incluir librerias en el Perl. De hecho, para saltarme los mime uso una rudimentaria rutina.


Alvaro Herrera (<alvherre[a]dcc.uchile.cl>)
"El sabio habla porque tiene algo que decir;
el tonto, porque tiene que decir algo" (Platon).


_______________________________________________
Bsf-devel mailing list
address@hidden
http://mail.nongnu.org/mailman/listinfo/bsf-devel


Manuel.





reply via email to

[Prev in Thread] Current Thread [Next in Thread]