LDA, Google Books, Google Translate e come i SEO possono scrivere meglio

No Comments

Da buon SEO mi pongo spesso domande che possono sembrare inutili e provo a darmi risposte invece utilissime per capire il comportamento dei motori di ricerca.

Una delle cose che ho sempre pensato su cosa ci facesse veramente Google con il suo Google Books è che in realtà il contenuto dei libri gli servisse come base di qualità su cui statisticamente confrontare il contenuto scritto online.

Esempio di Vector Model by Seomoz

Esempio di Vector Model by Seomoz

Ho sempre creduto che la base contenutistica del web non dovesse essere statisticamente autoreferenziale, ovvero non si poteva fare statistica solo sul sotto insieme dei contenuti online. Avrebbe secondo me, abbassato enormemente la qualità media di tutto il sottoinsieme, algoritmi di information retrieval compresi.

Ci doveva essere una base di partenza e paragone che qualificasse un contenuto come “di qualità” rispetto ad un’altro, e pur non essendo un esperto nel settore dell’information retrieval, mi sono sempre immaginato un meccanismo di “topic modeling” a doppio controllo tra quello scritto on line e quello scansionato da Google sui libri.

Oggi leggendo un articolo su repubblica (questo) credo di avere trovato una conferma indiretta.

Ashis Venugopal, ingegnere di Google Traslate spiega nell’intervista come il meccanismo dietro all’algoritmo delle traduzioni sia di tipo statistico e di come si basino su libri e testi ufficiali per raccogliere la prima base (persino le dichiarazioni dell’Onu in tutte le sue traduzioni)

La scommessa è la mole di dati. Google scava tra le traduzioni di una stessa dichiarazione in tutte le lingue dell’Onu, pesca tra i classici della letteratura e delle religioni. “Per avere un’analogia di come funziona la macchina pensiamo a un ristorante cinese”. È lo stesso procedimento con cui il dottore imparò a “parlare” hindi con la fidanzata. “Io non conosco le regole del cinese ma leggo prima la traduzione inglese, ‘Manzo in Agrodolce’, e prendo nota delle due parole cinesi. Poi leggo la traduzione di un altro piatto, ‘Vegetali in Agrodolce’, e rivedo quello stessa parola cinese usata per ‘Agrodolce’. Poi mi sposto su un altro piatto ancora, ‘Zuppa Vegetale’, e rivedo quella parola che ho incontrato prima e significa ‘Vegetale’. A questo punto sarò o no in grado di prevedere come si dice in cinese ‘Vegetale in Agrodolcè – senza leggere la traduzione in inglese?”.

Mi pare ovvio che per ogni SEO che legge tra le righe questa sia un conferma indiretta del fatto che per monitorare la qualità di un contenuto Google usi lo stesso modus operandi, ovvero confrontare l’uso e la distanza vettoriale tra le parole con quello che lui considera di qualità: il contenuto dei libri scansionati.

Quindi amici SEO, volete scrivere contenuti migliori ? Bene, non perdete le buone abitudini di fare ricerche sulle keyword e strategie editoriali, ma per amor del web, leggete a più non posso e migliorate il vostro lessico !

Ps: Se non sapete cosa sia LDA o topic modelling potete cominciare da questo post su Seomoz: Latent Dirichlet Allocation (LDA) and Google’s Rankings are Remarkably Well Correlated o incominciare ad approfondire leggendo qualcuno di questi articoli su LDA e Google

Richiedi un preventivo Gratuito

Web Hosting

Lascia un commento

No Comments

    Altri articoli dal blog

    Vedi tutti gli articoli