Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data, Ciencia y Sociedad: ¿moda pasajera o ...

Fernando Perez
November 13, 2014

Big Data, Ciencia y Sociedad: ¿moda pasajera o transformación de la ciencia misma?

Transparencias de mi charla en la conmemoración de los 30 años de la maestría en física de la Universidad de Antioquia, como parte del programa "Ciencia en Bicicleta" del parque Explora.

Video de la presentación:
http://new.livestream.com/ParqueExploraTV/Fisica/videos/68022541

Breve comentario "Ciencia por minuto" en el mismo evento:
http://new.livestream.com/ParqueExploraTV/Fisica/videos/68021254

Fernando Perez

November 13, 2014
Tweet

More Decks by Fernando Perez

Other Decks in Science

Transcript

  1. Big Data, Ciencia y Sociedad: ¿moda pasajera o transformación de

    la ciencia misma? Fernando Pérez @fperez_org Lawrence Berkeley National Laboratory Universidad de California, Berkeley 30 años Maestría en Física UdeA Parque Explora, Nov. 13, 2014.
  2. Mi recorrido, algo extraño... • Física de partículas, Matemática Aplicada,

    Neurociencia... – Con un elemento constante: la computación científica • Construyendo herramientas que nos permitan usar el computador como un recurso para pensar y comunicar • Construyendo proyectos para cambiar el papel de los computadores en el mundo científico – Herramientas abiertas para computación científica – La fundación Numfocus – BIDS: el “Berkeley Institute for Data Science.”
  3. Johannes Kepler (1571-1630) Tres leyes del movimiento planetario 1)Los planetas

    se mueven en órbitas elípticas con el sol en un foco. 2)Los planetas barren áreas iguales en tiempos iguales. 3)El cuadrado del período de la órbita es proporcional al cubo de su distancia media al sol.
  4. La ley de la gravitación universal • Un modelo dinámico

    causal • Incluye las leyes de Kepler – Explica su forma básica – Expone sus limitaciones – Predice más allá de Kepler
  5. Modelos "tradicionales” en ciencia • Kepler – un modelo fenomenológico,

    puramente descriptivo. – Basado en datos adquiridos manualmente. • Newton – Construye un modelo dinámico, predictivo, causal.
  6. Un ejemplo contemporáneo El problema: ¿cómo identificar rápidamente eventos astronómicos

    interesantes en medio de millones de eventos “normales” (que no ofrecen novedad científica)? La solución: Un modelo estadístico que permite a una máquina clasificar los datos en tiempo real, y señalar eventos novedosos. Josh Bloom, Astronomía, UC Berkeley
  7. La Supernova PTF 11kly: El “evento de una generación”, Agosto

    2011 La Supernova Tipo Ia más cercana en > 25 años http://bit.ly/ptf11kly
  8. Pasando al 2001... • Un estudiante tratando de terminar un

    doctorado en física de partículas... • Y buscando una distracción más interesante...
  9. Entretanto en Chicago... John Hunter (1968-2012) Postdoc en neurociencia computacional,

    Dpto de neurología pediátrica, U. Chicago. Pacientes de epliepsia infantil que no responden a tratamiento farmacológico
  10. LSST: Python es el lenguaje oficial • 30,000 GB/noche •

    Todo el cielo sur cada ~4 noches • Catálogo final (~2030): 100s de PetaBytes
  11. Fundado en 2013, luego de una competencia nacional US $37.8M

    a 5 años, con U. Washington y NYU • Un espacio para la colaboración interdisciplinaria. • Un agente de cambio en la universidad moderna a medida que el “Data Science” permea la academia. • Un incubador para la próxima generación de tecnologías y prácticas en Data Science.
  12. Localizado en el corazón de Berkeley En el centro de

    la Universidad Cerca de múltiples institutos que trabajan con Big Data En Doe, la biblioteca principal de la Universidad:
  13. “Publicar o perecer” • El artículo científico: – De forma

    de comunicación a moneda. • Las editoriales científicas (e.g. Elsevier) estrangulan las bibliotecas universitarias. • La física introdujo modelos abiertos de comunicación: arXiv.org. • Las herramientas de colaboración abierta en computación pueden cambiar los modos de publicación.
  14. El libro abierto y ejecutable • Un libro creado 100%

    con software abierto – IPython, matplotlib, numpy, etc... • Cada capítulo publicado en el blog del autor • Cada capítulo es un “Notebook” de IPython que el lector puede ejecutar.
  15. Un ejemplo: la política electoral en USA • El presidente

    es elegido por el colegio electoral • 538 representantes de todos los estados • Los votos se asignan por estado, los 538 electores hacen la elección final.
  16. FiveThirtyEight (538): Blog del NY Times (2010-2013) La predicción del

    2012 • Un modelo estadístico muy bien diseñado. • Múltiples fuentes regulares de datos (encuestas) alimentándolo. • Cuidadosa calibración de cada fuente de datos. • Exito total: – una predicción perfecta.
  17. La respuesta de FiveThirtyEight http://fivethirtyeight.com/datalab/the-bechdel-test-checking-our-work [...] Keegan presentó una idea

    importante: FiveThirtyEight y otros sitios similares deberían exponer sus datos al público. No podríamos estar más de acuerdo. Estamos explorando cómo hacer nuestro código y datos accesible a nuestros lectores, incluyendo a través de nuestra cuenta en GitHub.
  18. Correlaciones (Simplificando) Cuánto varía una cantidad (Y), a medida que

    otra varía (X) X, Y? • Dosis de una droga, esperanza de vida • Temperatura media, incidencia de crímenes violentos • Etc...
  19. Modelos puramente estadísticos • Las correlaciones son un qué sin

    un porqué • Un análisis de correlaciones sin embargo puede ser muy efectivo: – Entender algo de un sistema cuando no hay más información • e.g. no entendemos el mecanismo de acción de una droga – Tomar decisiones donde sólo importa el efecto • e.g. cambiar el color de una página web aumenta las ventas
  20. Modelos muy difíciles de interpretar Intriguing properties of neural networks

    C. Szegedy et al. http://cs.nyu.edu/~zaremba/docs/understanding.pdf
  21. Armas autónomas Misiles con selección autónoma de objetivos ¿Mañana... ?

    Hoy Jueves 13 de Noviembre, 2014: reunión de la ONU en Ginebra para definir protocolos sobre armas autónomas. Robots con movilidad humanoide
  22. Los algoritmos aprenden todos los días • Reconocimiento facial •

    Transcripción de texto en condiciones difíciles (ruido de la calle, etc) • Control de voz (Siri, Google Now, etc) • Traducción automática. • Muchísimo más... ¿Qué hacemos cuando todas estas herramientas sean usadas por agentes hostiles (NSA, etc)?
  23. Preguntas abiertas en la ciencia... • Los Big Data están

    transformando tanto la ciencia como la vida diaria. – Y estableciendo un nexo directo de impacto entre investigación académica, industria y sociedad. • Los modelos estadísticos vs los modelos dinámicos de “primeros principios”... – La efectividad de los modelos estadísticos es indudable. – Pueden ser, en ciertos contextos, suficientes. ¿Cómo mantener la misión de la ciencia de producir una comprensión causal del universo?
  24. … y para toda la sociedad • ¿Cuál es el

    lugar de derechos individuales como la privacidad, el anonimato, el derecho a cometer errores, en la era de sistemas que “todo lo ven, nada lo olvidan”? • ¿Cuál va a ser el lugar del trabajo en una sociedad donde las máquinas hayan reemplazado tantas actividades “humanas”?
  25. Espacios de unificación y colaboración • Colaboración en Internet –

    Un cambio de perspectiva: de consumidores a participantes. • La "Ciencia de Datos" – ¿más que una oportunidad para colaboración interdisciplinaria, un nuevo modo de pensar la ciencia que nos permita trascender las barreras disciplinarias?