Jeg er på udkig efter en crawler, gerne et Wordpress plugin, som kan crawle nettet for artikler (gerne f.eks. kun i Danmark eller kun .dk) hvor man kan specificere hvad det er den skal lede efter f.eks. håndbold så den finder alle artikler der nu findes om dette emne, eller hvis man kunne specificere det endnu mere f.eks. herre landsholds håndbold og den så kunne fange artikler omkring dette emne. Det må meget gerne være et Wordpress plugin eller lignende. Nogen der ved om det findes eller er det noget man skal have lavet specielt ? //Kim |
Har du tænkt lidt over hvad det er du spørger efter ?
Det du spørger efter er en søge robot der indekserer alle domæner under dk , hvis du nu spurgte efter et der søgte et bestemt domæne igennem så findes det sikkert, om end det ikke er sikkert den der ejer domænet vil være særlig glad for dig, hvis du crawler hvert andet minut
At indeksere alt under dk eller et hvilket som helst tld er ikke noget man bare gøre og da slet ikke med wordpress og php
Men du kan manuelt finde de sider der stiller et RSS feed til rådighed som dette fra dr.dk http://www.dr.dk/nyheder/service/feeds/sporten , så skriver du en funktion der henter feeds og gemmer dem i en database (RSS feed er XML så du kan bruge dato + tid til at se om du har den i forvejen) , der efter bruger du noget regex eller elasticsearch der er faktisk et rss plugin til elasticsearch her http://david.pilato.fr/rssriver/ til at søge efter herre landshold