-
Notifications
You must be signed in to change notification settings - Fork 3
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Branie pod uwagę SIMC przy wykrywaniu duplikatów #18
Comments
Jedyna sytuacja, w której by to coś psuło, to gdy w źródle mamy dla jednej miejscowości podany kod SIMC, a dla drugiej nie. Ale chyba takie rzeczy to się nie zdarzają. Acz widziałem iMPA bez symul-ów. |
Jeszcze trochę pomarudzę. |
Czyli duplikatami oznaczamy:
|
Sam nie wiem... mnie właściwie potrzebna jest tylko informacja (zawarta w fixme=), że w danej gminie są różne miejścowości o takiej samej nazwie. To obudzi moją czujność ;-) |
To zgłoszenie to bardziej zasygnalizowanie problemu pod rozważenie niż zgłoszenie błędu.
Otóż, ciągnąc adresy z gminy Laszki@EMUiA:
./merger.py --gugik --terc 1804052
trafiłem na adresy z miejscowości Tuchla oznaczone jako fixme=Duplicate[...]
Mamy tam klasyczny przypadek, kiedy są dwie miejscowości o tej samej nazwie - jedna z nich to wieś, a drugie to osada. Posiadają one różne kody SIMC.
W związku z tym zastanawiam się - może przy wykrywaniu duplikatów brać również pod uwagę zgodność tagu addr:city:simc= w pobranych danych?
The text was updated successfully, but these errors were encountered: