Skip to content

Latest commit

 

History

History
113 lines (92 loc) · 3.46 KB

README.md

File metadata and controls

113 lines (92 loc) · 3.46 KB

Agregacje 2

Data Wranglers

Kilka przykładowych agregacji korzystających z danych zipcodes oraz imieniny opisano w Aggregation Framework Examples.

Zaliczenie, deadline czwartek, 2014-11-20, 08:00 CEST

Dane należy wpisać według schematu (całość w jednym wierszu):

1. [Nazwisko, Imię](link do repozytorium z rozwiązaniem zadania 1 na GitHub).
   [Tytuł](link do repozytorium z rozwiązaniem zadania 2 na GitHub),
  1. Acewicz-Hepfner, Patryk
  2. Banecka, Kamila
  3. Banecki, Daniel
  4. Bednarczyk, Marek
  5. Bieliński, Marcin
  6. Bławat, Adam
  7. Bonczkowska, Magdalena
  8. Borkowski, Maciej
  9. Cimoch, Jarosław
  10. Czechowicz, Kacper
  11. Dargacz, Mateusz
  12. Drozdowski, Adrian
  13. Ekiert, Łukasz
  14. Gałka, Łukasz
  15. Grycko, Marcin
  16. Horoszko, Marcin
  17. Józwiak, Roman
  18. Karolczak, Jakub
  19. Kąkol, Jan
  20. Kłeczek, Piotr
  21. Komorowski, Szymon
  22. Koźmiński, Marcin
  23. Kucharski, Maciej
  24. Kulas, Piotr
  25. Kulesz, Michał
  26. Kuźnik, Mateusz
  27. Kwiatkowski, Dominik
  28. Lamkiewicz, Krzysztof
  29. Latoszewski, Adam
  30. Latoszewski, Krzysztof
  31. Ławicki, Patryk
  32. Miotk, Mateusz
  33. Miś, Maciej
  34. Nowak, Wojciech
  35. Ossowski, Marcin
  36. Piotrkowski, Łukasz
  37. Rękawek, Szymon. GetGlue
  38. Sałata, Jakub
  39. Sarzyńska, Magdalena
  40. Sienkiewicz, Daniel
  41. Skałkowski, Michał
  42. Soliński, Damian
  43. Sosnowski, Ariel
  44. Synowczyk, Piotr
  45. Szklarska, Milena
  46. Szymanek, Tomasz
  47. Wittbrodt, Łukasz
  48. Zakrzewski, Patryk
  49. Zalewski, Marcin
  50. Zdunek, Kamil

Egzamin, deadline czwartek, 2015-01-08, 08:00 CEST

TODO

Simple Rules for Reproducible Computations

Provide public access to scripts, runs, and results:

  1. Version control all custom scripts:
  • avoid writing code
  • write thin scripts and use standard tools and use standard UNIX commands to chain things together.
  1. Avoid manual data manipulation steps:
  • use a build system, for example make, and have all results produced automatically by build targets
  • if it’s not automated, it’s not part of the project, i.e. have an idea for a graph or an analysis? automate its generation
  1. Use a markup, for example Markdown, to create reports for analysis and presentation output products.

And two more rules:

  1. Record all intermediate results, when possible in standardized formats.
  2. Connect textual statements to underlying results.

Różne rzeczy

  1. Do automatycznego wygenerowania spisu treści w zadaniach można użyć narzędzia Table of Contents Preprocessor.
  2. Jak sobie radzić z nieczystymi committami?

Big Collections

  1. Stanford Large Network Dataset Collection by Jure Leskovec: Online Reviews (Amazon, Movies, Beer)
  2. GetGlue and Timestamped Event Data (ok. 11 GB); próbka 100 jsonów getglue101. Dane pochodzą z lat 2007–2012 – tylko filmy i przedstawienia TV. Przykładowe aggregacje: ilu jest różnych użytkowników w danych? jakie jest 10 najpopularniejszych filmów i przedstawień TV? ile jest różnych akcji?