Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Branie pod uwagę SIMC przy wykrywaniu duplikatów #18

Open
zibik opened this issue Apr 7, 2015 · 4 comments
Open

Branie pod uwagę SIMC przy wykrywaniu duplikatów #18

zibik opened this issue Apr 7, 2015 · 4 comments

Comments

@zibik
Copy link

zibik commented Apr 7, 2015

To zgłoszenie to bardziej zasygnalizowanie problemu pod rozważenie niż zgłoszenie błędu.
Otóż, ciągnąc adresy z gminy Laszki@EMUiA:
./merger.py --gugik --terc 1804052
trafiłem na adresy z miejscowości Tuchla oznaczone jako fixme=Duplicate[...]
Mamy tam klasyczny przypadek, kiedy są dwie miejscowości o tej samej nazwie - jedna z nich to wieś, a drugie to osada. Posiadają one różne kody SIMC.
W związku z tym zastanawiam się - może przy wykrywaniu duplikatów brać również pod uwagę zgodność tagu addr:city:simc= w pobranych danych?

@wiktorn
Copy link
Member

wiktorn commented Apr 7, 2015

Jedyna sytuacja, w której by to coś psuło, to gdy w źródle mamy dla jednej miejscowości podany kod SIMC, a dla drugiej nie. Ale chyba takie rzeczy to się nie zdarzają. Acz widziałem iMPA bez symul-ów.

@wiktorn wiktorn closed this as completed in 6cce47f Apr 7, 2015
@zibik
Copy link
Author

zibik commented Apr 7, 2015

Jeszcze trochę pomarudzę.
Przydałoby się jednak w jakiś sposób zasygnalizować przypadek wystąpienia w danych źródłowych adresów z miejscowości o identycznych nazwach; chyba najlepiej w formie jakiegoś fixme=
W obecnej sytuacji w przyszłości na 100% przegapię sprawę, a pasowałoby adresom z osady zmienić addr:place na (przykładowo) addr:place=Tuchla (osada), bo zwykle tak robimy w takiej sytuacji...

@wiktorn wiktorn reopened this Apr 8, 2015
@wiktorn
Copy link
Member

wiktorn commented Apr 8, 2015

Czyli duplikatami oznaczamy:

  • adresy, które mają takie same: numer, ulica, miasto (tak jak było przed poprawką)
  • miejscowości (wszystkie adresy w miejscowości), które w danym imporcie - te same nazwy (addr:city / addr:place), ale różne kody SIMC
    ?

@zibik
Copy link
Author

zibik commented Apr 8, 2015

Sam nie wiem... mnie właściwie potrzebna jest tylko informacja (zawarta w fixme=), że w danej gminie są różne miejścowości o takiej samej nazwie. To obudzi moją czujność ;-)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants