El día a día de un científico de datos no consiste solo en recopilar información, sino también en comprender bien cada problema y entender los efectos de su trabajo y cómo podría ayudar a las personas.
Niranjan Pedanekar es científico principal del Área de Investigación en Tata Consultancy Services (TCS) y está a cargo de un grupo llamado Área 66, conformado 100% por científicos de datos con distintos niveles de experiencia.
Pedanekar formó este grupo hace dos años porque estaba interesado en el mundo del entretenimiento y en cómo los humanos interactúan con el contenido. Lo anterior, ya que, además de ser científico, Pedanekar también es escritor, actor y director.
Lo que hace Área 66 se podría clasificar como investigación académica y trabajo de industria, aunque también es una mezcla de entretenimiento, ciencias de datos y ciencia conductual. Actualmente, el equipo trabaja con aplicaciones de Inteligencia Artificial (IA), escribiendo algoritmos que ayuden a tener un mejor impacto del contenido en las industrias de entretenimiento, medios y publicidad. Lo anterior, de forma automática y de distintas formas.
“Tomemos las películas como ejemplo. Estamos tratando de crear un algoritmo que pueda reconocer las diferentes intensidades emotivas dentro de una película. Así, una secuencia de acción es de alta intensidad, pero una escena donde la gente está sentada en una sala de juntas es de baja intensidad. Los datos que usamos para lograrlo son elementos como la paleta de colores, la música y la velocidad de la acción en una secuencia”, indica.
¿Por qué sirve esto? Pedanekar dice que los usos son múltiples. Uno es la colocación de anuncios que, muchas veces, no coinciden con el contenido de determinada película.
“Quizá estás viendo una escena realmente triste seguida de un anuncio con gente bailando, para después volver a la lúgubre película. La tecnología permite que los anuncios se acoplen con el tono de la película: un anuncio de una bebida después de una escena en el desierto o un anuncio de calzado deportivo después de una escena en la que hay gente corriendo”, apunta.
En Área 66 también están tratando de “marcar” películas según el ambiente, es decir, distinguir entre una escena de persecución en un bosque y una escena de relajación en la playa. Esto podría ayudar a empresas como Netflix, Amazon u otros servicios de streaming a dar una experiencia más personalizada a sus usuarios.
“Digamos que eres fanático de Matrix y que has visto la película muchísimas veces, pero solo quieres ver las escenas de acción. Esto te permitiría hacer justo eso”, asegura.
Impacto social
Más allá de la personalización, Pedanekar señala que el trabajo de un científico de datos también trae consigo implicaciones sociales.
“En el futuro podríamos marcar películas de violencia o contenido no apropiado para niños. Si la familia está viendo una película que todos disfrutan, pero hay una escena que podría alterar a los más pequeños, el algoritmo puede reconocerla. Gran parte de nuestro día lo pasamos analizando dichos datos y tratando de entrenar a los algoritmos para que aprendan de ellos”, puntualiza.
Según el experto, por ello es realmente importante entender los números, las tendencias y sus efectos, en vez de solo perderse en los algoritmos.
“Necesitas comprender bien el problema y entender qué producirá tu trabajo y cómo ayudará. Por ejemplo, si estoy trabajando en un algoritmo que puede detectar cáncer con base en las resonancias de los pacientes, necesito entender qué significa la precisión del algoritmo. Puedo escribir un artículo que diga que mejoré los resultados y que la precisión fue de 95% a 96,3%, pero ¿qué significa, en realidad, en términos de salvar vidas? ¿Se pueden salvar doscientas o trescientas vidas más?”, indica.
Es justo por lo anterior que Pedanekar destaca la importancia de “darle un sentido” a los datos. Indica que la nueva ola de algoritmos (aprendizaje profundo), por lo general, no viene con respuestas que se pueden explicar de forma sencilla, por lo que ser un «buen» científico de datos consiste en encontrar un equilibrio y usarlo para una buena causa.
“Entender si algo está parece bien o no forma parte de las consideraciones éticas sobre la ciencia de datos. En algunas formas podemos compararla con el fuego. En algún momento, alguien descubrió el fuego, que se puede usar para cosas tanto buenas como malas. Lo mismo se puede decir de la IA: se puede usar para diagnosticar cáncer o para armamento”, destaca.
Estar actualizado
Además del trabajo en cada proyecto específico, los científicos de datos deben usar parte de su día para mantenerse al día con respecto de lo que está pasando en otros lugares. Pedanekar dice que gran parte de su día lo paso leyendo, desde periódicos hasta artículos de otros investigadores.
“Las buenas investigaciones tienen lugar en la intersección de campos, por lo que también leo artículos de psicología o ciencias conductuales, así como de IA. Hay muchos aspectos conductuales en la publicidad, por lo que, si quieres integrar la IA en ella, tienes que entender cómo reacciona la gente a las cosas. También escribimos los resultados de nuestras propias investigaciones. Nuestro grupo escribe entre cinco y 10 artículos al año y asiste a muchas conferencias”, detalla.
Además de la lectura, Pedanekar considera sumamente importante intercambiar ideas y ser creativo.
“Mi día es un continuo de entretenimiento, IA y arte convergiendo. A veces no puedo distinguirlas. Si me surge una idea para una obra y necesito escribir el argumento, lo hago de inmediato. Si estoy trabajando en una producción y me llega una idea sobre mi trabajo en IA, me enfoco en ella. Necesitas esa creatividad en la ciencia de datos. Cuando estás atorado con un problema, tienes que encontrar varias formas de salir del problema. Lo mismo pasa cuando estás dirigiendo obras: tienes que ver lo que está escrito e imaginar cinco formas distintas de interpretarlas”, puntualiza.