Branie pod uwagę SIMC przy wykrywaniu duplikatów #18

zibik · 2015-04-07T21:33:59Z

To zgłoszenie to bardziej zasygnalizowanie problemu pod rozważenie niż zgłoszenie błędu.
Otóż, ciągnąc adresy z gminy Laszki@EMUiA:
./merger.py --gugik --terc 1804052
trafiłem na adresy z miejscowości Tuchla oznaczone jako fixme=Duplicate[...]
Mamy tam klasyczny przypadek, kiedy są dwie miejscowości o tej samej nazwie - jedna z nich to wieś, a drugie to osada. Posiadają one różne kody SIMC.
W związku z tym zastanawiam się - może przy wykrywaniu duplikatów brać również pod uwagę zgodność tagu addr:city:simc= w pobranych danych?

wiktorn · 2015-04-07T21:43:43Z

Jedyna sytuacja, w której by to coś psuło, to gdy w źródle mamy dla jednej miejscowości podany kod SIMC, a dla drugiej nie. Ale chyba takie rzeczy to się nie zdarzają. Acz widziałem iMPA bez symul-ów.

zibik · 2015-04-07T22:22:04Z

Jeszcze trochę pomarudzę.
Przydałoby się jednak w jakiś sposób zasygnalizować przypadek wystąpienia w danych źródłowych adresów z miejscowości o identycznych nazwach; chyba najlepiej w formie jakiegoś fixme=
W obecnej sytuacji w przyszłości na 100% przegapię sprawę, a pasowałoby adresom z osady zmienić addr:place na (przykładowo) addr:place=Tuchla (osada), bo zwykle tak robimy w takiej sytuacji...

wiktorn · 2015-04-08T15:55:08Z

Czyli duplikatami oznaczamy:

adresy, które mają takie same: numer, ulica, miasto (tak jak było przed poprawką)
miejscowości (wszystkie adresy w miejscowości), które w danym imporcie - te same nazwy (addr:city / addr:place), ale różne kody SIMC
?

zibik · 2015-04-08T16:07:30Z

Sam nie wiem... mnie właściwie potrzebna jest tylko informacja (zawarta w fixme=), że w danej gminie są różne miejścowości o takiej samej nazwie. To obudzi moją czujność ;-)

wiktorn closed this as completed in 6cce47f Apr 7, 2015

wiktorn reopened this Apr 8, 2015

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Branie pod uwagę SIMC przy wykrywaniu duplikatów #18

Branie pod uwagę SIMC przy wykrywaniu duplikatów #18

zibik commented Apr 7, 2015

wiktorn commented Apr 7, 2015

zibik commented Apr 7, 2015

wiktorn commented Apr 8, 2015

zibik commented Apr 8, 2015

Branie pod uwagę SIMC przy wykrywaniu duplikatów #18

Branie pod uwagę SIMC przy wykrywaniu duplikatów #18

Comments

zibik commented Apr 7, 2015

wiktorn commented Apr 7, 2015

zibik commented Apr 7, 2015

wiktorn commented Apr 8, 2015

zibik commented Apr 8, 2015