bsf-devel
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: hola


From: Alvaro Herrera
Subject: Re: hola
Date: Thu, 3 Apr 2003 21:09:23 -0400
User-agent: Mutt/1.4i

On Tue, Apr 01, 2003 at 05:13:42PM -0400, Mañungo wrote:

Hola,

> No se si han seguido trabajando en el asunto del filtro bayesiano (me tinca 
> que no por el nulo flujo de esta lista :-)

Yo no he hecho absolutamente nada.

> Resumen de funciones por "auto-envio":
> SUBJECT         ACTION
> SPAM                    agregar a spam.txt
> NO                      agregar a no-spam.txt
> WHITE                   agregar a white.txt
> BLACK                   agregar a black.txt

Cuando agregas algo a WHITE, que es lo que agregas exactamente?  La
direccion del "From:", o un string arbitrario?  Idem cuando agregas a
BLACK?

Se me ocurre que cuando un mail llega y se le calcula su probabilidad de
spam, deberia automaticamente agregarse a SPAM o NO.  Si despues recibes
un mail que diga SPAM, entonces primero tienes que _borrarlo_ de NO y
despues agregarlo a SPAM, y viceversa.  Esto mantiene al sistema
permanentemente retroalimentado sin intervencion del usuario, el cual
solo debe actuar en caso de que el sistema se equivoque.

> Hasta ahora tengo las siguiente estadisticas:
> 5.79    %_false_positives
> 8.16    %_spam_failed
> 54.85   %_spam_received
> 91.84   %_spam_stopped
> 536     total

Hmm... es muy poco mail como para sacar conclusiones.  De todas maneras
creo que la cantidad de falsos positivos es demasiado alta.  Yo he
tenido menos de diez falsos positivos en miles de mails que he recibido
desde que tengo el filtro andando, claro que nuestro filtro es relento y
los archivos de puntajes son gigantes.  (Notese que yo me quede con la
version original del filtro; nunca llegue a usar la version que hizo
Aldrin.)


> Y los tamannos de los archivos son:
> -rw-r--r--   1 mortega  doctor     23907 Apr  1 16:17 no-spam.txt
> -rw-r--r--   1 mortega  doctor     42955 Apr  1 15:20 spam.txt

Que guardas en ellos exactamente, y en que formato?

Como haces la tokenizacion? (separacion del mail en componentes
"palabras")

IMHO usar listas blancas/negras para calcular la efectividad del filtro
es "trampa" (ninguno de los que fallaron en mi caso habrian fallado si
yo tuviera listas blancas con los headers de las listas de correo -- mi
correo personal nunca ha sido mal clasificado).  Los puntajes de tu
sistema se mantienen si no consideras las listas blancas?

Ah, otra cosa: creo que las listas negras no tienen absolutamente ningun
valor.  Has demostrado lo contrario?

-- 
Alvaro Herrera (<alvherre[a]dcc.uchile.cl>)
"En las profundidades de nuestro inconsciente hay una obsesiva necesidad
de un universo lógico y coherente. Pero el universo real se halla siempre
un paso más allá de la lógica" (Irulan)




reply via email to

[Prev in Thread] Current Thread [Next in Thread]