Entrevista a Gonzalo Rivero. Continuación

Aquí, na vella Europa e na Galicia aínda máis antiga, noto que os maiores avances no campo da ciencia dos datos están dirixidos basicamente por enxeñeiros e informáticos. Quizais os grandes científicos das vellas disciplinas "puras" ou incluso as institucións estean máis centrados na docencia e na investigación académica que na tradución do I + D ao mercado. Quizais sexa culpa do mercado. Tes esa mesma percepción?

Sempre me sorprendeu o peso que o mercado galego e español lle dá a enxeñaría no mercado de ciencia de datos. Supoño que ten que ver coa reputación tradicional que as enxeñarías tiveron de sempre no país. Non dubido que a formación en enxeñaría sexa excepcional pero penso que hai xente que ten moito que aportar que ven de disciplinas distintas. Se cadra a miña visión está sesgada polo feito de que eu cheguei á profesión antes de que existisen títulos académicos. Cando eu cheguei, un contrataba perfís que un agora consideraría como non tradicionais porque era o que había no mercado. Por exemplo, lembro compañeiros que non remataran o bacharelato e que construíran a infraestrutura analítica da empresa e a práctica totalidade dos modelos en produción. Tamén lembro un director de ciencia de datos dunha start-up en serie B que se titulara en música ou en historia da arte. Para min eran casos ilustrativos da idea de que, como disciplina práctica, non é tan raro que alguén chegue a ser excepcional sen vir dunha formación tradicional.

Pero supoño que a pregunta relevante non é se o mellores científicos de datos son sempre enxeñeiros se non sobre a probabilidade de que enxeñeiros sexan mellores científicos de datos. A miña resposta probablemente sexa un "non sempre." Precisamente porque a ciencia de datos representa unha variedade de funcións na empresa e na investigación é importante ter en conta o tipo de traballo que han facer. Hai tipos de tarefas coma a integración de modelos de aprendizaxe de máquinas en sistemas en produción nas que un agardaría que alguén que veña de enxeñería de software terá mellor preparación ca un estatístico. A igual interese e paixón, esa formación previa confire unha clara vantaxe.
Sen embargo, hai moitas tarefas en ciencia de datos que son máis intensas en modelización. Nese casos, a miña experiencia é que a xente que adoita destacar é a que ven de campos substantivos. Penso por exemplo en economistas e sociólogos que ás veces teñen unha formación estatística sólida e ademais desenvolven intuicións moi valiosas sobre como desenvolver hipóteses de traballo. O que quero dicir con isto é que as xeneralizacións son difíciles e inxustas e é importante avaliar os perfís pensando nas habilidades específicas do posto. Tirar de sinais imperfectos como a reputación da carreira non é unha boa estratexia.

Hai anos que sigo publicacións de Pew Research, especialmente as relacionadas cos electorais e os medios de comunicación e os novos medios. Cal é o teu traballo como asociado no departamento de investigación? En que áreas espera realizar a súa investigación?

Pew Research Center é unha organización pola que sempre sentín unha enorme admiración. Me considero inmensamente afortunado de estar agora traballando aquí. A misión do Centro está baseado na premisa de que o debate público unicamente ten sentido se existe unha comprensión común da realidade social entre todos os cidadáns. Con iso en mente, o Centro aporta é unha descrición desapaixonada e rigorosa de diversas actitudes e tendencias en eidos coma a política, a relixión, o xornalismo ou Internet que están a marcar o mundo actual.

Eu traballo nun novo equipo de nova planta que se chama Data Labs. O que nós facemos é explorar novos métodos e novas fontes de datos dixitais que poidan axudar a cumprir coa misión da organización. En boa medida, Data Labs é unha unidade de investigación, desenvolvemento e transferencia que traballa en aplicacións do que estes días se ven chamando "ciencia social computacional." Para elo, Data Labs xera investigación orixinal nos mesmos ámbitos nos que traballa o Centro pero empregando datos dixitais.

Para que te fagas unha idea. O Centro ten un grupo de investigadores que se dedican ao estudio da relixión nos Estados Unidos e no mundo. A súa investigación é, fundamentalmente, investigación con enquisas. Un dos proxectos que mellor definen a Data Labs é traballo que estamos a rematar estes días no que analizamos os sermóns como fonte de datos que nos permiten entender mellor o tipo de mensaxes que reciben os crentes nos lugares de culto. Para iso, desenvolvemos unha ferramenta que capturou unha grande cantidade de vídeos de sermóns que moitas igrexas en Estados Unidos publican en Internet. Eses vídeos pasámolos por un sistema transcrición e o texto resultante o analizamos cunha combinación manual e modelos estatísticos que nos permiten entender mellor os temas dos que se falou nunha determinada semana en congregacións ao longo dos Estados Unidos. Pensa no difícil que sería estudiar isto con enquisas.

Parte do noso traballo tamén é explorarmos as limitacións das ferramentas coas que traballamos. Por exemplo, empregamos moitos métodos de aprendizaxe de máquinas e sabemos que ás veces estes modelos son demasiado bos aprendendo e reproducindo nesgos nos datos nos que foron adestrados. Entón, o que Data Labs fai é complementar a investigación con auditorías nas que explicamos as posibilidades e os riscos de determinados métodos. O ano pasado, sen ir máis lonxe, publicamos un informe no que estudiabamos o efecto de diferentes ataques contra sistemas de recoñecemento de xénero a través de fotografías. Amosábamos coma un modelo comunmente usado producía malas falsas se ocultabamos partes da imaxe que non enganarían a un humano.

O meu traballo como director asociado de investigación consiste na xestión diaria do equipo e na definición dos nosos estándares técnicos e metodolóxicos. En tanto que investigador principal, tamén colaboro na definición das liñas estratéxicas de investigación de Data Labs. No día a día, o meu traballo consiste en axudar á xente da unidade cos seus proxectos. Ás veces iso quere dicir axudar na xestión dos proxectos definindo fitos e asignando tarefas a cada un dos investigadores pero noutras ocasións colaboro máis activamente resolvendo dúbidas técnicas ou desenvolvendo análises eu mesmo. Ademais, dado que somos un equipo cunhas necesidades técnicas moi diferentes das do resto do Centro, traballo moito cos nosos enxeñeiros para deseñar unha infraestrutura que sexa flexible e que se adapte aos moitos tipo de casos de uso que temos. É un traballo fascinante que me permite manterme activo na investigación social mentres podo seguir activo nas áreas técnicas que me trouxeron á ciencia de datos nun principio.

Cóntanos o teu último libro: Como os medios dixitais configuran a democracia. Na túa opinión, as sociedades contemporáneas, as multitudes intelixentes e as democracias occidentais se queres poden chegar a reformar os medios dixitais?

O libro é un proxecto ao que lle tiña moitas gañas dende hai moitos anos. Os meus coautores, Andreas Jungherr, agora na Universidade de Bamberg, e Daniel Gayo-Avello, na Universidade de Oviedo, compartiamos idea de que nos últimos dez anos se produciu unha inmensa cantidade de literatura académica de alta calidade sobre os efectos dos medios dixitais na democracia. Sen embargo, pese a todo o progreso, percibiamos dous inconvenientes.

Por unha banda, viamos que a literatura producida polos investigadores en comunicación e en ciencia política non estaba en suficiente contacto. Ás veces parecía coma se os investigadores dunha beira ignoraban o traballo que se estaba a facer na outra. Iso dificultaba enormemente o progreso colectivo. Os tres pensabamos que era importante consolidar a literatura existente e poñela nun marco teórico común que axudase a entender mellor o estado actual da investigación. Por outra banda, pensabamos que o debate intelectual precisaba dunha perspectiva máis pausada sobre o modo en que Internet e os medios dixitais teñen un impacto positivo ou negativo sobre a sociedade. A nosa teima era que ás veces é demasiado doado caer nunha visión inxustificadamente pesimista. Penso agora, por exemplo, na mensaxe tan repetida nos últimos catro anos de que as redes sociais son as causantes da radicalización e polarización política. Ou na interpretación que tanto triunfou dende a Primavera Árabe e o 15M de que o mundo dixital vai facer irrelevantes ás organizacións sociais tradicionais coma os partidos políticas. O que viamos era que o debate se podía beneficiar dunha revisión actualizada da literatura empírica que aclarase o estado da cuestión sobre os grandes temas que nos preocupan como sociedade. Como ves, eran obxectivos moi ambiciosos.

Non foi un traballo doado. Moita da literatura que discutimos provén de áreas que emprega marcos conceptuais e mesmo linguaxes moi distintas. O que intentamos foi artellar as contribucións centrais ao redor da idea de que os medios de comunicación son instrumentos que serven aos actores políticos en determinadas funcións que non teñen cambiado. Os políticos aínda teñen que persuadir aos votantes e os cidadáns aínda ven a política coma una parte secundaria das súas vidas e adoptan estratexias que lles permitan minimizar o esforzo que lles require informarse para participar en decisións colectivas. Nese sentido, dixital e o analóxico seguen lóxicas similares..

Ao mesmo tempo, existen transformacións claras que teñen que ver coas posibilidades que o mundo dixital ofrece para executar esas funcións. Por exemplo, vemos que os políticos adaptaron as súas estratexias comunicativas para tirar proveito dun entorno no que xa non dependen dos medios tradicionais coma a prensa ou a televisión para chegar aos votantes. Iso implica que os xornalistas teñen menos espazo para facer de gardas do contido que se espalla pola poboación e tamén favorece a persoalización política e a perda de peso que os partidos tiñan non seu rol tradicional de "marcas" que facilitaban o desenvolvemento dunha identidade común entre candidatos. Por dicilo doutro xeito, o dixital non é un epifenómeno se non que altera o modo no que os diferentes actores políticos poden participar na vida pública.

Facer unha predición sobre vai acontecer é case imposible. A realidade dixital está cambiado continuamente e, de feito, leva cambiando case aceleradamente durante os últimos vinte anos. Pensa, por exemplo, en como era o mundo antes do teléfonos intelixentes e non pasaron aínda nin quince anos da presentación do iPhone. É realmente incrible o moito que teñen cambiado as cousas e as moitísimas tecnoloxías que poderían ser transformadoras pero que aínda non sabemos ben como se van incorporar nas nosas vidas. Aínda estamos vendo que é o que vai pasar coa blockchain e iso que Bitcoin leva en activo doce anos. Os wearable devices coma os reloxos intelixentes aínda se empezaron a popularizar nos últimos catro anos e só este ano estamos empezando a ver ferramentas de realidade aumentada e realidade virtual en dispositivos de consumo. Pero non temos nin que ir a tecnoloxías punteiras. A estrutura económica aínda está evolucionando. Nos últimos meses vimos os primeiros intentos de regulación da intelixencia artificial en Europa e as primeiras fases do debate sobre a posible fragmentación das grandes empresas tecnolóxicas coma Amazon, Google ou Facebook. Facer predicións de longo alcance sobre cambios políticos e sociais cando as bases económicas e tecnolóxicas estean mudando tan rapidamente non nos vai levar moi lonxe.

Non podo esquecer os primeiros blogs sobre estes temas xurdidos en Galicia e España, incluído o seu, a través dos cales nos coñecemos. Hoxe algúns deses pioneiros son estrelas da televisión. É posible a ciencia sen comunicación da ciencia? ¿Os mellores científicos teñen éxito nos medios e fanse populares ou só os mellores comunicadores con mellores habilidades sociais?

A miña visión sobre a relación entre comunicación e ciencia ten evolucionado moito nos últimos anos. Penso que os investigadores temos unha débeda moral coa sociedade que é fundamental que saldemos. A nosa investigación debe de ser accesible ao resto dos nosos concidadáns. Dubido que alguén estea en desacordo niso. Hai específicos nos que podemos diferir como por exemplo se debemos cambiar o modelo de publicación científica pero coido que a comunidade é unánime na necesidade de achegar á investigación ao público.

Para min iso non quere dicir que os investigadores deban escribir unha versión para o público de cada un dos seus artigos científicos. É unha postura que moitas veces se emprega como espantallo. Penso que a obriga que temos é unha débeda colectiva que ten que ver coa necesidade de transmitir o estado da literatura de tal xeito que o estado da discusión nun eido científico sexa accesible a calquera cun mínimo de formación e interese. O que é relevante para a sociedade é ter unha clara consciencia de que temas están a fronteira de investigación e cal é o coñecemento acumulado ata o momento. Iso é distinto de comunicar cada un dos resultados que forman parte dunha literatura.

Nese sentido si penso que as habilidades do investigador e do divulgador son diferentes. Asúmolle a ambos dous unha capacidade de comunicar por que, ao final, a ciencia é un proceso de investigación que require informar e dialogar co resto da comunidade. O que marca a diferencia é que o primeiro ten que especializarse para mover a fronteira de investigación mentres que o segundo ten que elevarse para poder describir un eido a vista de paxaro. Hai xente brillante que é quen de facer as dúas cousas pero, por desgraza, non son moitos.

Nos Estados Unidos, e quizais tamén nos países de fala inglesa, as estatísticas trinomiais-ciencia política-medios acadaron unha enorme relevancia académica e incluso social. En España, as intensas relacións entre esas potencias son cada vez máis evidentes e hai algúns investigadores que se atreven a navegar por elas. É posible ser independente e obxectivo nesta escena? Necesitamos, incluso no núcleo do mundo científico, aprender filtros críticos que nos permitan separar o po da palla?

Si penso que é posible. É precisamente o que fai unha organización coma o Pew Research Center. Acadar ese equilibro no que un participa no debate político sen por iso tomar unha parte pode ser difícil e require atención e coidado pero tamén é fundamental. Para min, a contribución dos científicos sociais nos debates públicos debe ser axudar a clarificar os argumentos que esgrimen cada unha das partes. Entendo que na nosa posición de especialistas, o valor que podemos aportar ten que ver co feito de que simplemente pasamos máis tempo cos argumentos e coa evidencia empírica do que lle é posible ao resto dos cidadáns. Iso non nos confire un coñecemento máis profundo de que opcións son mellores para a sociedade: só a sociedade como colectivo pode decidir iso.
Tal e como o vexo eu, o noso papel ten que ser de muleta, de apoio para que a sociedade entenda mellor as consecuencias das decisións ás que se enfronta. A nosa responsabilidade está en conseguir que a sociedade tome as súas decisións coa mellor información posible. Iso ás veces quere dicir colaborar na reflexións sobre o que cada un dos argumentos sobre a mesa quere dicir realmente, outras implica simplemente aportar unha descrición desapaixonada da realidade. Os científicos sociais que agora están tan presente no debate publico entendo que poden colaborar no primeiro. Organizacións coma o Pew Research Center intentan contribuír no segundo.

Ademais da política, a ciencia de datos está presente dun xeito ou doutro en moitos aspectos das nosas vidas. Do deporte ás finanzas e ás redes sociais, por suposto en xenética e agora en resposta covid-19. Pola súa experiencia e visión, cales son as áreas máis importantes na actualidade e en cal diría que se producirá un maior crecemento nos próximos anos?

A miña impresión é que máis que crecemento a través aplicación da ciencia de datos noutras novas áreas, o que imos ver é unha maior nivelación entre diferentes disciplinas. Agora mesmo, a ciencia de datos está fragmentada. Hai moitas iniciativas moi interesantes que están poñendo a unha variedade de investigadores en temas moi diferentes baixo unha mesma estrutura organizativa e penso que de aí han saír as innovacións máis relevantes.
No caso concreto das ciencias sociais, eu vexo certos que penso que van marcar a axenda dos vindeiros cinco ou dez anos. Por suposto, no curto prazo, eu penso que a clave vai ser a expansión das aplicacións de procesamento e entendemento da linguaxe natural e da visión de máquinas. Cada un de nos xeramos unha inmensa cantidade de información tanto en texto como en formato audiovisual que pode servir para entender mellor actitudes e comportamentos que antes nos estaban ocultos.
Co tempo penso que veremos unha maior penetración dos métodos de aprendizaxe automática para os problemas que son puramente preditivos. Iso unicamente vai ser posible na medida na que teñamos métodos prácticos para avaliar os nesgos en bases de datos. Nestes últimos cinco anos, o debate sobre transparencia e rendición de contas en aprendizaxe de máquinas nos ten levado a reflexionar con máis coidado sobre a calidade dos datos, dos métodos de recolleita e procesamento, e sobre a case completa carencia de métodos para avaliar a adecuación dos datos a un determinado problema (o que en inglés chaman fitness for use). Agora que o GDPR consagra o dereito á explicación, imaxino que veremos máis responsabilidade por parte dos científicos de datos e un maior desenvolvemento de modelos interpretables e un certo abandono dos modelos de caixa negra.

Relacionado co GDPR, a outra area na que coido que veremos máis desenvolvemento é na protección estatística da privacidade. Cada vez máis, a privacidade diferencial se está a converter nun marco analítico de referencia tanto en empresas tecnolóxicas coma nos institutos de estatística. A privacidade diferencia fixo moitas promesas que aínda non está claro que poida cumprir pero penso que nos fixo a todos máis conscientes da necesidade de pensar máis formalmente sobre a relación de intercambio entre o valor social que podemos extraer dos datos e a necesidade de protexer a información que cada un dos individuos nos aporta. Por iso, imaxino que veremos máis esforzo en métodos que nos permitan analizar os datos sen ter que centralizalos ou que manteñan a confidencialidade da información individual durante a análise. Penso, por exemplo, na aprendizaxe federada ou na análise con datos encriptados.

Por último, asumo que seguiremos coa estandarización dos métodos de inferencia causal que levamos vendo estes anos. A maior parte das preguntas que nos interesan, tanto na investigación académica coma na empresa, son de natureza causal. Moitos dos problemas que agora vemos como preditivos son seguramente solucións que poderían ser melloradas cunha aproximación causal. Aínda que o marco teórico para inferencia causal con datos observacionais é xa ben coñecido penso que hai liñas interesantes de investigación que permitirán o uso deses conceptos a escala e en novos eidos de aplicación.

Por último pero non menos importante. Ourense, de onde es, foi sempre unha terra de emigración. Pero incluso no éxodo dos séculos XIX e XX houbo heroes retornados que intentaron dedicar parte do seu esforzo e fortuna a xerar riqueza e traer prosperidade á súa terra natal. Onde te ves dentro de 20 anos? Que futuro hai para profesionais coma ti na túa terra?

Aprendín hai tempo que os obxectivos a longo prazo teñen un valor limitado. Son prácticos como ferramentas que nos permiten descubrir os valores que deberían guiar a nosa carreira profesional pero un ten que saber ser flexible e adaptarse aos infinitos imprevistos que han ocorrer neses vindeiros vinte anos. Digo isto como alguén que xa intentou retornar a Europa en varias ocasións. Se non o fixen aínda é porque non hai oportunidades. Xa non digo oportunidades competitivas se non oportunidades que non supoñan cambiar de carreira profesional. Por exemplo, eu agora traballo en investigación social. Un retorno a Europa, xa non digamos a Galicia, iso implicaría ir á academia. Sen embargo, despois de levar dez anos fóra da universidade e dado o modo no que esta se entende en Galicia, penso que ese camiño é pouco realista.

Agora mesmo, a miña está nos Estados Unidos e supoño que seguirei aquí no curto prazo. Sen embargo, penso que cada vez hai máis opcións para poder retornar e traballar dende Galicia sen que iso signifique necesariamente traballar para unha organización galega. Penso que nestes anos, e sobre todo coa pandemia, estamos a ver unha maior aceptación do traballo en remoto en todo tipo de organizacións, non unicamente en start-ups. Esa é se cadra unha das opcións máis factibles agora mesmo.

 

Voltar

2021  SGAPEIO   globbers joomla templates