El Spam que llega a un blog es realmente impresionante, por ejemplo, en las últimas cuatro horas han llegado a «La Opinión Alternativa» 200 intentos de Spam. Estos 200 mensajes fallidos se componían de publicidad de casinos online, medicamentos variados, tonos para teléfonos móviles, préstamos, «escaleras para perros»:http://doggysteps.com/ (¡Si como lo oís!) y los que simplemente buscan que pongas en tu lista negra a Google o Yahoo sin darte cuenta. Apasionante.
«MovableType 3.2»:http://www.sixapart.com/movabletype/ se defiende del «Spam»:http://es.wikipedia.org/wiki/SPAM con un módulo llamado [«SpamLookup»:http://bradchoate.com/projects/spamlookup/]. Este módulo filtra los comentarios y los elimina si detecta alguna característica de Spam:
– Si la dirección IP se encuentra en su «lista negra» de Spammers conocidos.
– Si tiene un número de enlaces superior al indicado por mí.
– Si encuentra en su contendio alguna palabra o expresión que yo haya previamente indicado como Spam.
Por ejemplo alguna de las siguientes:
4u adipex advicer baccarrat blackjack booker byob car-rental-e-site car-rentals-e-site carisoprodol casino casinos chatroom celebrex cialis credit-report-4u cwas cyclen cyclobenzaprine dating-e-site day-trading debt-consolidation-consultant discreetordering duty-free dutyfree equityloans fioricet flowers-leading-site freenet-shopping gambling health-insurancedeals-4u homeequityloans homefinance holdem holdempoker holdemsoftware holdemtexasturbowilson hotel-dealse-site hotele-site hotelse-site incest insurance-quotesdeals-4u insurancedeals-4u jrcreations kasino levitra loan macinstruct mortgage-4-u mortgagequotes online-gambling onlinegambling-4u ottawavalleyag ownsthis palm-texas-holdem-game paxil penis pharmacy phentermine poker poker-chip poze rental-car-e-site roulette shemale shoes slot-machine slot taboo teen texas-holdem thorcarlson top-site top-e-site tramadol trim-spa ultram valeofglamorganconservatives viagra vioxx xanax zolus zyban
Aunque pudiera parecer que este módulo es una parte esencial del funcionamiento de Movable Type, la documentación al respecto casi brilla por su ausencia. ¿Cómo se hace un «regex»:http://es.wikipedia.org/wiki/Expresi%C3%B3n_regular que permita buscar muchas palabras automáticamente? ¿Qué trucos permiten detectar a Spammers listos que camuflan sus intenciones? Tras pasarme bastantes ratos buscando información al respecto, me parace una buena idea recopilar aquí los tres sitios donde pude encontrar información aceptable sobre el tema.
¬ «Making the most of SpamLookup»:http://www.neilturner.me.uk/2005/Sep/10/making_the_most_of_spamlo.html
Completa explicación del funcionamiento de SpamLookup. Recomendaciones y trucos.
¬ «SpamLookup’s Keyword Filter Explained»:http://tweezersedge.com/archives/2005/09/000601.html
Aquí se explica como usar y configurar expresiones en perl que permitan buscar las palabras clave dentro de URLs. Para una mejor comprensión de las expresiones en perl, ver: [«Regular expressions in Perl»:http://www.cs.tut.fi/~jkorpela/perl/regexp.html].
Por ejemplo, estas son las mías.
# Patterns are Perl regular expressions. /]*(?:online|poker|casino)[^\s\'"<>]*/i 2 /https?:\/\/[^\s\'"<>]*(?:blackjack|roulette|slots|backgammon|craps|gambling)[^\s\'"<>]*/i 2 /https?:\/\/[^\s\'"<>]*(?:texas[\w\-_.]*hold[\w\-_.]*em)[^\s\'"<>]*/i 2 /https?:\/\/[^\s\'"<>]*(?:ringtone|loan|buy|funds)[^\s\'"<>]*/i 2 /https?:\/\/[^\s\'"<>]*(?:viagra|prozac|forex|zyban|pharmacy)[^\s\'"<>]*/i 2 /https?:\/\/[^\s\'"<>]*(?:doggie|doggy|staircase|doggieramp|carpeted|steps)[^\s\'"<>]*/i 2 /-?itsok/i 2
¬ «Pong Prevention and the Mysteries of Movable Type Spam»:http://www.conservativecat.com/mt/archives/2005/10/pong_prevention_1.html
Otra buena explicación que nos indica cómo eliminar Trackbacks duplicados.