[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: hola
From: |
Mañungo |
Subject: |
Re: hola |
Date: |
Thu, 03 Apr 2003 23:39:48 -0400 |
At 22:45 03-04-2003, you wrote:
Hum, estas buscando "From " o "From:"? Son headers distintos;
probablemente lo util es el segundo, pero el que tiene el > al principio
es el primero (por eso la pregunta).
Exactamente: />From:[^<]*<([^>]+)>/
Es que eudora encierra los e-ail entre corchete _siempre_.
Ok, seria interesante saber que tanto falla el sistema despues de un
periodo razonable de entrenamiento.
Sip.
Una por linea, en un archivo de texto?
Me da la impresion de que puede ganarse _mucha_ eficiencia usando otro
formato (por ejemplo btrees como lo que hizo Aldrin); la busqueda
secuencial eventualmente te va a terminar matando el rendimiento. Esto
te permite crecer el tamaño de la tabla de puntajes con busqueda O(1).
De hecho. Pero hasta ahora los archivos son tan chicos!
Ademas, sigo con la idea que para resolver el ultimo 20% del spam hay que
usar nuevas tecnicas (ideas?)
Huh, y por que no [[:alpha:]][[:alnum:]]{2,40} ? (en particular le
sacas la opcion "i")
Para mantener pequenna las tablas de ocurrencias/tokens (por eso bote la
idea de guardar . _ - @ )
En todo caso es super interesante la idea de cortar los token a los 41
caracteres... ahora que miro mi tabla de puntajes veo un monton de cosas
demasiado largas que probablemente aportan poco en ambos sentidos.
Si. Yo mire la tabla y los strings de +40 caracteres era:
-> 10% urls interminables, con cgi y parametros
-> 90% mime mal skipeado
Creo que hasta se podria cortar en 20 caracteres y el resultado seria
igual. Tambien depende del conjunto de caracteres a considerar, eso si.
Por lo pronto, voy a mirar los btrees que usa Aldrin, pero me da lata a
priori incluir librerias en el Perl. De hecho, para saltarme los mime uso
una rudimentaria rutina.
Alvaro Herrera (<alvherre[a]dcc.uchile.cl>)
"El sabio habla porque tiene algo que decir;
el tonto, porque tiene que decir algo" (Platon).
_______________________________________________
Bsf-devel mailing list
address@hidden
http://mail.nongnu.org/mailman/listinfo/bsf-devel
Manuel.
- hola, Mañungo, 2003/04/01
- Re: hola, Alvaro Herrera, 2003/04/03
- Re: hola, Mañungo, 2003/04/03
- Re: hola, Alvaro Herrera, 2003/04/03
- Re: hola,
Mañungo <=
- Re: hola, Alvaro Herrera, 2003/04/03
- Perl y flock, Mañungo, 2003/04/12
- Re: Perl y flock, Ricardo J. Lemus C., 2003/04/12
- Re: Perl y flock, Mañungo, 2003/04/12
- Re: Perl y flock, Ricardo J. Lemus C., 2003/04/12
- Re: Perl y flock, Alvaro Herrera, 2003/04/12
- Re: Perl y flock, Alvaro Herrera, 2003/04/12
- Duda sobre Bayes, Mañungo, 2003/04/13
- Re: Duda sobre Bayes, Aldrin Martoq, 2003/04/14
- Re: Perl y flock, Alvaro Herrera, 2003/04/13