bsf-devel
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: hola


From: Mañungo
Subject: Re: hola
Date: Thu, 03 Apr 2003 21:50:55 -0400

At 21:09 03-04-2003, you wrote:
> Resumen de funciones por "auto-envio":
> SUBJECT         ACTION
> SPAM                    agregar a spam.txt
> NO                      agregar a no-spam.txt
> WHITE                   agregar a white.txt
> BLACK                   agregar a black.txt

Cuando agregas algo a WHITE, que es lo que agregas exactamente?  La
direccion del "From:", o un string arbitrario?  Idem cuando agregas a
BLACK?

Mi idea de whitelist y blacklist es que contengan las direcciones de los sender del e-mail que estoy forwareando. Esto se traduce chanchamente a buscar la cadena: ">From: e-mail" (notese el > del e-mail forwardeado). Claramente no es la mejor solucion, pero funciona.

Se me ocurre que cuando un mail llega y se le calcula su probabilidad de
spam, deberia automaticamente agregarse a SPAM o NO.  Si despues recibes
un mail que diga SPAM, entonces primero tienes que _borrarlo_ de NO y
despues agregarlo a SPAM, y viceversa.  Esto mantiene al sistema
permanentemente retroalimentado sin intervencion del usuario, el cual
solo debe actuar en caso de que el sistema se equivoque.

Sip, es verdad. Pero como las tablas spam y no-spam son solo una lista de ocurrencias, con los valores #ocurrencias/token me parecia engorroso borrar cosas, pero ahora que lo pienso, me parece que no.


> Hasta ahora tengo las siguiente estadisticas:
> 5.79    %_false_positives
> 8.16    %_spam_failed
> 54.85   %_spam_received
> 91.84   %_spam_stopped
> 536     total

Hmm... es muy poco mail como para sacar conclusiones.  De todas maneras
creo que la cantidad de falsos positivos es demasiado alta.  Yo he
tenido menos de diez falsos positivos en miles de mails que he recibido
desde que tengo el filtro andando, claro que nuestro filtro es relento y
los archivos de puntajes son gigantes.  (Notese que yo me quede con la
version original del filtro; nunca llegue a usar la version que hizo
Aldrin.)

Es cierto que son muchos falsos positivos (y de hecho creo que eran mas, pero he reseteado las estadisticas), pero por otro lado, los archivos de datos parten completa y absolutamente vacios (el programa no sabe nada).

> Y los tamannos de los archivos son:
> -rw-r--r--   1 mortega  doctor     23907 Apr  1 16:17 no-spam.txt
> -rw-r--r--   1 mortega  doctor     42955 Apr  1 15:20 spam.txt

Que guardas en ellos exactamente, y en que formato?

Numero de ocurrencias por token. Nada comprimido ni nada.
Tengo la impresion que el trade-off entre cantidad de info versus eficiencia del programa es una curva logaritmica o algo asi. O sea que con poca informacion es facil filtrar el 80% del spam, pero para filtrar correctamente el 20% restante se necesita muuucha mas info (u otras tecnicas)


Como haces la tokenizacion? (separacion del mail en componentes
"palabras")

Actualmente busco la expresion /[a-z][a-z0-9_\-]{2,40}/i;


IMHO usar listas blancas/negras para calcular la efectividad del filtro
es "trampa" (ninguno de los que fallaron en mi caso habrian fallado si
yo tuviera listas blancas con los headers de las listas de correo -- mi
correo personal nunca ha sido mal clasificado).  Los puntajes de tu
sistema se mantienen si no consideras las listas blancas?

Lo implemente hace poco, asi que no he podido medir su desempeño.

Ah, otra cosa: creo que las listas negras no tienen absolutamente ningun
valor.  Has demostrado lo contrario?

Idem.


--
Alvaro Herrera (<alvherre[a]dcc.uchile.cl>)
"En las profundidades de nuestro inconsciente hay una obsesiva necesidad
de un universo lógico y coherente. Pero el universo real se halla siempre
un paso más allá de la lógica" (Irulan)


Manuel.





reply via email to

[Prev in Thread] Current Thread [Next in Thread]