[WIP] Calculate sample size automatically #40

dzieciou · 2023-01-28T14:16:12Z

Fixes #27.

pkubiak · 2023-02-22T02:50:12Z

tree_labeller/core/predictor.py

+def get_sample_size(tree: NodeMixin, allowed_labels: Set[Label]):
+    return max(len(allowed_labels), len(tree.children))


Musiałbyś trochę rozwinąć tę koncepcję, bo nie jest dla mnie jasne skąd ten wzór?

chyba nigdy nie ma sensu wybierać więcej niż jest liści w drzewie?

To jest jeszcze draft, muszę to przemyśleć, ale zasadniczo:

w samplu powinno być conajmniej tyle nodów z drzewa, ile jest kategorii, zeby kazda kategoria miala szanse byc reprezentowana w samplu

chyba nigdy nie ma sensu wybierać więcej niż jest liści w drzewie?

zgadza sie

w dodatku sytuacja, kiedy w drzewie kategorii jest mniej lisci niż allowed labels, skutkuje tym, ze, ze dla niektorych z allowed labels nie bedzie kategorii.

Takich scenariuszy jest dużo więcej i muszę sobie je rozpisać.

pkubiak

Nie jest dla mnie jasne jak działa ta nowa metoda, mógłbyś zapodać jakimś wyjaśnieniem skąd takie podejscie?

dzieciou · 2023-02-22T07:50:43Z

Nie jest dla mnie jasne jak działa ta nowa metoda, mógłbyś zapodać jakimś wyjaśnieniem skąd takie podejscie?

Masz na myśli nowy sposób samplowania stąd: https://github.com/dzieciou/tree-labeller/blob/master/tree_labeller/tree/selectors/top_down.py?

Tam jest dokumentacja ale generalnie jest tak. Powiedzmy ze masz budzet na 5 annotacji, a twoje drzewo kategorii ma dwie główne kategorie:

pieczywo
alkohole

Wybierasz więc pieczywo i alkohole. Zostalo ci jeszcze 3 annotacji, wiec mozesz zaczac zastępować główne kategorie podkategoriami. Ale robisz to tak, zeby z kazdej z głównych kategorii była reprezentowana, wiec:

dla pieczywa wybierasz podkategorię bułki
dla alkoholi -- wódkę
dla pieczywa -- chleby
dla alkoholi -- wina
w pieczywach nie ma już podkategorii, wiec wybierasz z alkoholi kolejną podkategorię -- whisky

Mowilem, ze mamy budget na 3 dodatkowe, ale w momencie kiedys wybierasz podkategorię np. pieczywo->bułki, to z sampla usuwamy pieczywo, czyli jego główną kategorię.

Zadanie domowe: Co trafiłoby do sampla, gdyby budżet wynosił 2, 3 lub 4?

dzieciou added 2 commits January 28, 2023 15:11

Draft automatic calculation of sample size

08a269d

We calculate max sample size

d7563b6

dzieciou marked this pull request as draft January 28, 2023 14:16

Correct type hinting

cd9d7c4

pkubiak reviewed Feb 22, 2023

View reviewed changes

pkubiak suggested changes Feb 22, 2023

View reviewed changes

Merge branch 'master' into feature/sample-size

c016f30

dzieciou changed the title ~~Calculate sample size automatically~~ [WIP] Calculate sample size automatically Mar 11, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[WIP] Calculate sample size automatically #40

[WIP] Calculate sample size automatically #40

dzieciou commented Jan 28, 2023 •

edited

Loading

pkubiak Feb 22, 2023

dzieciou Feb 22, 2023

pkubiak left a comment

dzieciou commented Feb 22, 2023 •

edited

Loading

		def get_sample_size(tree: NodeMixin, allowed_labels: Set[Label]):
		return max(len(allowed_labels), len(tree.children))

[WIP] Calculate sample size automatically #40

Are you sure you want to change the base?

[WIP] Calculate sample size automatically #40

Conversation

dzieciou commented Jan 28, 2023 • edited Loading

pkubiak Feb 22, 2023

Choose a reason for hiding this comment

dzieciou Feb 22, 2023

Choose a reason for hiding this comment

pkubiak left a comment

Choose a reason for hiding this comment

dzieciou commented Feb 22, 2023 • edited Loading

dzieciou commented Jan 28, 2023 •

edited

Loading

dzieciou commented Feb 22, 2023 •

edited

Loading