[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: hola
From: |
Mañungo |
Subject: |
Re: hola |
Date: |
Thu, 03 Apr 2003 21:50:55 -0400 |
At 21:09 03-04-2003, you wrote:
> Resumen de funciones por "auto-envio":
> SUBJECT ACTION
> SPAM agregar a spam.txt
> NO agregar a no-spam.txt
> WHITE agregar a white.txt
> BLACK agregar a black.txt
Cuando agregas algo a WHITE, que es lo que agregas exactamente? La
direccion del "From:", o un string arbitrario? Idem cuando agregas a
BLACK?
Mi idea de whitelist y blacklist es que contengan las direcciones de los
sender del e-mail que estoy forwareando.
Esto se traduce chanchamente a buscar la cadena: ">From: e-mail" (notese
el > del e-mail forwardeado). Claramente no es la mejor solucion, pero
funciona.
Se me ocurre que cuando un mail llega y se le calcula su probabilidad de
spam, deberia automaticamente agregarse a SPAM o NO. Si despues recibes
un mail que diga SPAM, entonces primero tienes que _borrarlo_ de NO y
despues agregarlo a SPAM, y viceversa. Esto mantiene al sistema
permanentemente retroalimentado sin intervencion del usuario, el cual
solo debe actuar en caso de que el sistema se equivoque.
Sip, es verdad. Pero como las tablas spam y no-spam son solo una lista de
ocurrencias, con los valores #ocurrencias/token me parecia engorroso
borrar cosas, pero ahora que lo pienso, me parece que no.
> Hasta ahora tengo las siguiente estadisticas:
> 5.79 %_false_positives
> 8.16 %_spam_failed
> 54.85 %_spam_received
> 91.84 %_spam_stopped
> 536 total
Hmm... es muy poco mail como para sacar conclusiones. De todas maneras
creo que la cantidad de falsos positivos es demasiado alta. Yo he
tenido menos de diez falsos positivos en miles de mails que he recibido
desde que tengo el filtro andando, claro que nuestro filtro es relento y
los archivos de puntajes son gigantes. (Notese que yo me quede con la
version original del filtro; nunca llegue a usar la version que hizo
Aldrin.)
Es cierto que son muchos falsos positivos (y de hecho creo que eran mas,
pero he reseteado las estadisticas), pero por otro lado, los archivos de
datos parten completa y absolutamente vacios (el programa no sabe nada).
> Y los tamannos de los archivos son:
> -rw-r--r-- 1 mortega doctor 23907 Apr 1 16:17 no-spam.txt
> -rw-r--r-- 1 mortega doctor 42955 Apr 1 15:20 spam.txt
Que guardas en ellos exactamente, y en que formato?
Numero de ocurrencias por token. Nada comprimido ni nada.
Tengo la impresion que el trade-off entre cantidad de info versus
eficiencia del programa es una curva logaritmica o algo asi. O sea que con
poca informacion es facil filtrar el 80% del spam, pero para filtrar
correctamente el 20% restante se necesita muuucha mas info (u otras tecnicas)
Como haces la tokenizacion? (separacion del mail en componentes
"palabras")
Actualmente busco la expresion /[a-z][a-z0-9_\-]{2,40}/i;
IMHO usar listas blancas/negras para calcular la efectividad del filtro
es "trampa" (ninguno de los que fallaron en mi caso habrian fallado si
yo tuviera listas blancas con los headers de las listas de correo -- mi
correo personal nunca ha sido mal clasificado). Los puntajes de tu
sistema se mantienen si no consideras las listas blancas?
Lo implemente hace poco, asi que no he podido medir su desempeño.
Ah, otra cosa: creo que las listas negras no tienen absolutamente ningun
valor. Has demostrado lo contrario?
Idem.
--
Alvaro Herrera (<alvherre[a]dcc.uchile.cl>)
"En las profundidades de nuestro inconsciente hay una obsesiva necesidad
de un universo lógico y coherente. Pero el universo real se halla siempre
un paso más allá de la lógica" (Irulan)
Manuel.
- hola, Mañungo, 2003/04/01
- Re: hola, Alvaro Herrera, 2003/04/03
- Re: hola,
Mañungo <=
- Re: hola, Alvaro Herrera, 2003/04/03
- Re: hola, Mañungo, 2003/04/03
- Re: hola, Alvaro Herrera, 2003/04/03
- Perl y flock, Mañungo, 2003/04/12
- Re: Perl y flock, Ricardo J. Lemus C., 2003/04/12
- Re: Perl y flock, Mañungo, 2003/04/12
- Re: Perl y flock, Ricardo J. Lemus C., 2003/04/12
- Re: Perl y flock, Alvaro Herrera, 2003/04/12
- Re: Perl y flock, Alvaro Herrera, 2003/04/12
- Duda sobre Bayes, Mañungo, 2003/04/13