Google és a magyar nyelvű oldalak

Anonymous képe

Tegnap a Weblaboron véletlenül előkerült, hogy a Google néhány magyar nyelvű lapot nem tekint magyar nyelvű lapnak. Számomra ez érdekes kérdésnek bizonyult, így megpróbáltam körbejárni...
Nézegettem a dolgot, csupán annyit birtam megállapítani, hogy itt talán valamilyen Drupal ficsör lesz a dolog mögött, mert nem Drupal oldalnál ez a jelenség nem jött elő:

weblabor site:weblabor.hu 83 900 magyar nyelvű találat
weblabor site:weblabor.hu kb. 354 000 találat

drupal site:drupal.hu 10 400 magyar nyelvű találat
drupal site:drupal.hu kb. 20 000 találat

Ugyanaz pl. az indexnél:
index site:index.hu 752 000 magyar nyelvű találat
index site:index.hu kb. 753 000 találat
Azonkívül, hogy itt elhanyagolható a külömbség, itt angol (668), német (7) és még ki tudja milyen nyelvű oldalakat is eltárol a Google...

De lehet, hogy ennek semmi köze nincs a Drupalhoz, viszont szerintem rendkívül fontos kérdés lenne, mert mind a weblabor.hu, mind a drupal.hu azért jött létre, hogy főleg azoknak segítsen, akik leginkább a magyar nyelvű keresést preferálják...

T.G

Fórum: 
Hojtsy Gábor képe

Nos, mind a Drupal.hu, mind a Weblabor minden oldalán ugyanazt a nyelvi információt adjuk (html lang="hu" xml:lang="hu" és még van egy meta elem is Content-language). Eddig ezt HTTP fejlécben nem jeleztük (ezutóbbit lehetne), de az, hogy bizonyos tartalmakat magyarnak ismert fel a Google azért mutatja, hogy mégis megérti, amit akarunk. Lehet, hogy az oldalak természetét kellene figyelembe venni, és mondjuk a túl sok angol (szakmai) szót tartalmazó oldalt angolnak sorolja be a Google.

Mindenesetre most betettem a Weblaboron a HTTP fejléc beállítást is a nyelvre vonatkozóan, meglátjuk ez segít-e valamit a dolgon. Összehasonlításnak különben az Indexen nincs ilyen HTTP fejléc, és a Content-language meta elemben 'hu-hu' van, aminek semmivel sem kellene magyarabbnak lennie, mint a 'hu'-nak.

Szerintem arról lehet szó, hogy a Google "jobban tudja", hogy mi magyar és mi nem, és a nagy eltérést az okozza, hogy technológiai oldalakat hasonlítunk össze egy mindennapos tartalmat publikáló oldallal, ahol így "magyarabb" tartalom van.

0
0