Źródło: MapReduceFoundation: Typing of MapReduce
It’s impossible to overstress this:
80% of the work in any data project is in cleaning the data.— DJ Patil, „Data Jujitsu”
- Włodzimierz Bzyl, 4 Books from Project Gutenberg.
- Paweł Kamiński, Sacramento Crimes.
- Michał Mroczkowski, Kody Pocztowe.
- Daniel Szymczak, Religie.
- Łukasz Wasak, Ceny Towarów w Polsce.
- Ryszard Madejski, Samochody w USA.
- Aneta Budner, Adresy IP.
- Urszula Sawicka, Popularne nazwy produktów.
- Jan Mudry, Obliczenie liczby pi metodą Monte Carlo.
- Jakub Martin, Imieniny.
- Alicja Kopczyńska, Bazyliki.
- Dorian Sawa, Kody pocztowe.
- Jan Pawlukiewicz, Samochody w USA.
- Paweł Śląski, Aktywność userów Githuba.
- Marcin Głombiowski, Całkowanie metodą prostokątów.
- Daniel Landowski, Duże i małe książki.
- Jakub Ciechowski, Trzęsienia ziemi.
- Adam Radomski, Kody pocztowe.
- Marcin Gigołło, Samochody.
- Wojciech Szymański, Samochody w USA.
- Damian Szafranek, [Lista UNESCO i czołgi WW2] (/docs/dszafranek.md).
- Patryk Jażdżewski, [Wydatki Home Office] (/docs/pjazdzewski.md).
- Romuald Łuczyk, [Państwa świata] (/docs/rluczyk.md).
- Adrian Szulc, [Lotniska] (/docs/aszulc.md).
- Michał Frankowski Natura2000.
- Łukasz Kępiński Transfery piłkarzy 2007-2013.
- Andrzej Thiel Kody pocztowe.
- Bartłomiej Bedra Lotniska.
- GitHub Archive
- Ilya Grigorik, Analyzing Millions of GitHub Commits
Przykładowy JSON:
{
"repository": {
"master_branch": "master",
"pushed_at": "2013-03-31T06:14:38-07:00",
"created_at": "2011-01-12T03:10:05-08:00",
"language": "JavaScript",
"forks": 4,
"stargazers": 8,
"watchers": 8,
"homepage": "",
"description": "",
"url": "https://github.com/wbzyl/nosql-tutorial",
"name": "nosql-tutorial",
"id": 1245063,
"fork": false,
"size": 564,
"owner": "wbzyl",
"private": false,
"open_issues": 0,
"has_issues": true,
"has_downloads": true,
"has_wiki": true
},
"actor_attributes": {
"email": "matwb@univ.gda.pl",
"location": "Poland",
"blog": "http://tao.inf.ug.edu.pl/",
"company": "Institute of Informatics, The University of Gdańsk",
"name": "Wlodek Bzyl",
"gravatar_id": "5daf79134c95a64ccdbf2bd477e52392",
"type": "User",
"login": "wbzyl"
},
"actor": "wbzyl",
"url": "https://github.com/wbzyl/nosql-tutorial/compare/073c0ed4c5...e5a8ae8209",
"type": "PushEvent",
"public": true,
"payload": {
"head": "e5a8ae820950953ce115801fe099d42ecb481ed1",
"ref": "refs/heads/master",
"size": 1,
"shas": [
["e5a8ae820950953ce115801fe099d42ecb481ed1","matwb@univ.gda.pl","update README-Ruby.md","Wlodek Bzyl",true]
]
},
"created_at": "2013-03-31T06:14:39-07:00"
}