Skip to content

Latest commit

 

History

History
105 lines (92 loc) · 3.9 KB

README.md

File metadata and controls

105 lines (92 loc) · 3.9 KB

MapReduce w przykładach

Przykład MapReduce

Źródło: MapReduceFoundation: Typing of MapReduce

Nasze dane

It’s impossible to overstress this:
80% of the work in any data project is in cleaning the data.

— DJ Patil, „Data Jujitsu”

  1. Włodzimierz Bzyl, 4 Books from Project Gutenberg.
  2. Paweł Kamiński, Sacramento Crimes.
  3. Michał Mroczkowski, Kody Pocztowe.
  4. Daniel Szymczak, Religie.
  5. Łukasz Wasak, Ceny Towarów w Polsce.
  6. Ryszard Madejski, Samochody w USA.
  7. Aneta Budner, Adresy IP.
  8. Urszula Sawicka, Popularne nazwy produktów.
  9. Jan Mudry, Obliczenie liczby pi metodą Monte Carlo.
  10. Jakub Martin, Imieniny.
  11. Alicja Kopczyńska, Bazyliki.
  12. Dorian Sawa, Kody pocztowe.
  13. Jan Pawlukiewicz, Samochody w USA.
  14. Paweł Śląski, Aktywność userów Githuba.
  15. Marcin Głombiowski, Całkowanie metodą prostokątów.
  16. Daniel Landowski, Duże i małe książki.
  17. Jakub Ciechowski, Trzęsienia ziemi.
  18. Adam Radomski, Kody pocztowe.
  19. Marcin Gigołło, Samochody.
  20. Wojciech Szymański, Samochody w USA.
  21. Damian Szafranek, [Lista UNESCO i czołgi WW2] (/docs/dszafranek.md).
  22. Patryk Jażdżewski, [Wydatki Home Office] (/docs/pjazdzewski.md).
  23. Romuald Łuczyk, [Państwa świata] (/docs/rluczyk.md).
  24. Adrian Szulc, [Lotniska] (/docs/aszulc.md).
  25. Michał Frankowski Natura2000.
  26. Łukasz Kępiński Transfery piłkarzy 2007-2013.
  27. Andrzej Thiel Kody pocztowe.
  28. Bartłomiej Bedra Lotniska.

GitHub Archive

Przykładowy JSON:

{
  "repository": {
    "master_branch": "master",
    "pushed_at": "2013-03-31T06:14:38-07:00",
    "created_at": "2011-01-12T03:10:05-08:00",
    "language": "JavaScript",
    "forks": 4,
    "stargazers": 8,
    "watchers": 8,
    "homepage": "",
    "description": "",
    "url": "https://github.com/wbzyl/nosql-tutorial",
    "name": "nosql-tutorial",
    "id": 1245063,
    "fork": false,
    "size": 564,
    "owner": "wbzyl",
    "private": false,
    "open_issues": 0,
    "has_issues": true,
    "has_downloads": true,
    "has_wiki": true
  },
  "actor_attributes": {
    "email": "matwb@univ.gda.pl",
    "location": "Poland",
    "blog": "http://tao.inf.ug.edu.pl/",
    "company": "Institute of  Informatics, The University of Gdańsk",
    "name": "Wlodek Bzyl",
    "gravatar_id": "5daf79134c95a64ccdbf2bd477e52392",
    "type": "User",
    "login": "wbzyl"
  },
  "actor": "wbzyl",
  "url": "https://github.com/wbzyl/nosql-tutorial/compare/073c0ed4c5...e5a8ae8209",
  "type": "PushEvent",
  "public": true,
  "payload": {
    "head": "e5a8ae820950953ce115801fe099d42ecb481ed1",
    "ref": "refs/heads/master",
    "size": 1,
    "shas": [
      ["e5a8ae820950953ce115801fe099d42ecb481ed1","matwb@univ.gda.pl","update README-Ruby.md","Wlodek Bzyl",true]
    ]
  },
  "created_at": "2013-03-31T06:14:39-07:00"
}

Data Wranglers

Data Wrangler