Jeg har netop læst et indlæg omkring duplicate content for magento. Der bliver i indlægget beskrevet at man skal oprpette en robots.txt med følgende indhold for minimere ens DC: User-agent: *
Disallow: /index.php/ Disallow: /*? Disallow: /*.js$ Disallow: /*.css$ Disallow: /checkout/ Disallow: /tag/ Disallow: /catalogsearch/advanced/ Disallow: /review/ Disallow: /app/ Disallow: /downloader/ Disallow: /js/ Disallow: /lib/ Disallow: /media/ Disallow: /*.php$ Disallow: /pkginfo/ Disallow: /report/ Disallow: /skin/ Disallow: /var/ Disallow: /catalog/
Disallow: /customer/
Allow: /catalogsearch/result/?q
Sitemap: http://www.domain.co.uk/sitemap.xm l This will prevent the directories from being indexed by the search engines and should cut down on the duplication.
Er dette en god måde at gøre det på, og er der evt. kommentarer hertil?
Mvh/ Mikkel |
Den bedste måde at undgå DC på er ved ikke at linke til det. Ovenstående robots.txt eksludererer meget indhold som der forhåbentligt alligevel ikke linkes til (css filer, javascript filer osv).
Som udgangspunkt vil jeg anbefale at bruge Xenu Link Sleuth til at crawle sitet med og kig så især på de URL'er af typen text/html den finder. Er nogle af disse URL'er DC? Så håndter dem. PDF filer og andre dokumenttyper kan også give DC, så check også dem.
Ved blot at installere ovenstående robots.txt uden at forstå de enkelte disallows hver især, risikerer du at for meget indhold udelades fra indeksering. Fx Disallow: /tag/ tør jeg ikke sige om er smart at bruge.
Mvh Jesper