-
Notifications
You must be signed in to change notification settings - Fork 1
[WIP] Calculate sample size automatically #40
base: master
Are you sure you want to change the base?
Conversation
def get_sample_size(tree: NodeMixin, allowed_labels: Set[Label]): | ||
return max(len(allowed_labels), len(tree.children)) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Musiałbyś trochę rozwinąć tę koncepcję, bo nie jest dla mnie jasne skąd ten wzór?
chyba nigdy nie ma sensu wybierać więcej niż jest liści w drzewie?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
To jest jeszcze draft, muszę to przemyśleć, ale zasadniczo:
- w samplu powinno być conajmniej tyle nodów z drzewa, ile jest kategorii, zeby kazda kategoria miala szanse byc reprezentowana w samplu
chyba nigdy nie ma sensu wybierać więcej niż jest liści w drzewie?
zgadza sie
w dodatku sytuacja, kiedy w drzewie kategorii jest mniej lisci niż allowed labels
, skutkuje tym, ze, ze dla niektorych z allowed labels nie bedzie kategorii.
Takich scenariuszy jest dużo więcej i muszę sobie je rozpisać.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Nie jest dla mnie jasne jak działa ta nowa metoda, mógłbyś zapodać jakimś wyjaśnieniem skąd takie podejscie?
Masz na myśli nowy sposób samplowania stąd: https://github.com/dzieciou/tree-labeller/blob/master/tree_labeller/tree/selectors/top_down.py? Tam jest dokumentacja ale generalnie jest tak. Powiedzmy ze masz budzet na 5 annotacji, a twoje drzewo kategorii ma dwie główne kategorie:
Wybierasz więc pieczywo i alkohole. Zostalo ci jeszcze 3 annotacji, wiec mozesz zaczac zastępować główne kategorie podkategoriami. Ale robisz to tak, zeby z kazdej z głównych kategorii była reprezentowana, wiec:
Mowilem, ze mamy budget na 3 dodatkowe, ale w momencie kiedys wybierasz podkategorię np. pieczywo->bułki, to z sampla usuwamy pieczywo, czyli jego główną kategorię. Zadanie domowe: Co trafiłoby do sampla, gdyby budżet wynosił 2, 3 lub 4? |
Fixes #27.