El secret del ‘big data’ són les ‘big questions’

juny 24th, 2013 by genisroca

15000_sideEn l’activitat digital tot genera una dada. Les targetes de crèdit indiquen on gastem, en quines botigues de quines ciutats, en quins conceptes i amb quins imports. Els telèfons mòbils indiquen on som i amb qui parlem. Les xarxes socials saben quines són les nostres amistats i quins els nostres grups d’interès. Els nostres proveïdors d’Internet saben quins webs visitem. La targeta de fidelització del supermercat sap quins productes preferim i amb quina freqüència els reposem. Dades. Dades. Dades. Una ingent quantitat de dades que ara amb la digitalització són més traçables, emmagatzemables i gestionables que mai.

Entre tantes dades hi ha molta informació, informació clau per al negoci. Tendències i correlacions, causes i efectes, preferències de consumidors i pautes de conducta. Ja hi ha qui valora les empreses en funció de les seves bases de dades i del potencial d’aquestes per al desenvolupament de negoci. Sense el valor de les dades no s’entén el verdader potencial de Google, Apple, Amazon o Facebook. Però tampoc el de Telefónica, BBVA, Carrefour oEndesa.

En aquest context hi ha qui s’obsessiona per col·leccionar i processar dades, i ja es detecta una certa tendència a la paràlisi per l’anàlisi. Milions de dades, increïbles esforços per al seu processament, i una certa incapacitat per obtenir informació realment útil. Molta estadística descriptiva però poques inferències útils. I és que malgrat l’arribada de la digitalització res no ha canviat: no obté respostes qui posseeix les dades, sinó qui sap fer les preguntes.

Vaig aprendre aquesta obvietat fa 25 anys quan exercia d’arqueòleg (sí, aquesta és la meva formació de base) i la vaig aprendre treballant amb paleontòlegs. Cada vegada que en un jaciment prehistòric trobàvem el crani d’un homínid els paleontòlegs eren qui intentaven explicar-nos en quin moment de l’evolució humana ens trobàvem, i per a això es dedicaven a analitzar la resta fòssil i intentaven extreure’n totes les dades possibles. Mesuraven la longitud, amplada i gruix de cada peça, el gruix de les parets cranials, el perímetre, el detall de cada peça molar… es dibuixava tot al mil·límetre. Centenars de mesures, milers de dades…, però poca informació. Tot va canviar quan per fi els paleontòlegs es van enfrontar a les restes fòssils amb la intenció de fer-los preguntes, en lloc d’intentar obtenir-ne dades.

Durant dècades s’havia pres la mida de totes i cadascuna de les dents, i s’havien dibuixat detalladament una a una. I el mateix amb la mandíbula. Fins que un dia algú va preguntar: Aquest homínid és carnívor o herbívor?. I davant d’aquesta pregunta la dada útil va ser l’angle de desgastament dels molars (la seva inclinació canvia clarament d’una dieta a l’altra), així com el gruix de la mandíbula (ja que una demanava major musculatura facial que l’altra). Dos simples dades: angle de desgastament molar i gruix de la mandíbula donaven la resposta a una gran pregunta. Fins aleshores s’havien recolectat centenars de dades, però no s’havia aconseguit una resposta tant útil. I per si això fos poc l’angle de desgastament molar és una dada que ningú havia recollit abans de fer aquesta pregunta.

Sense preguntes sempre processarem més dades de les necessàries, i a més a més no tindrem la certesa d’estar treballant amb les dades correctes. El Big Data pot ser un Big Fail si no s’orienta a respondre preguntes concretes. I aquestes preguntes concretes només es poden plantejar des d’un profund coneixement del negoci i els seus reptes.

Ara que ja tenim la capacitat de recopilar dades i processarles, haurem de demostrar la capacitat de fer les preguntes pertinents. I això no dependrà de la nostra capacitat tecnològica, sino de la nostra correcta comprensió dels reptes del negoci.

El secreto del ‘big data’ són les ‘big questions’.


0 Responses to “El secret del ‘big data’ són les ‘big questions’”

Feed for this Entry Trackback Address
  1. No hi ha comentaris

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *