Přeskočit na hlavní obsah
Přeskočit hlavičku
Název projektu
Možnosti využitia umelej inteligencie v geodata science pre účely predikcie cien nehnuteľností
Kód
SP2023/023
Předmět výzkumu
V súčasnosti sa umelá inteligencia (AI, najmä hlboké a strojové učenie) používa takmer v každom odbore. Výnimkou nie sú ani geografické informačné systémy (GIS) a geoinformatika. Výskum využitia AI bude zameraný na viacero špecifických aplikačných oblastí. Umelá inteligencia sa bude používať pre vývoj metódy na predikciu cien nehnuteľností, pre detekciu vozidiel z družicových snímok, sledovanie výskytu obyvateľstva z družicových snímok, geoparsing príspevkov zo sociálnych sietí (predovšetkým Twitter) a časopriestorovú analýzu textov. Úlohou projektu je vývoj nových postupov pokročilého spracovania priestorových dát najmä pre úlohy klasifikácie a zhlukovania založených na pokročilých metódach strojového učenia, predovšetkým hlbokého učenia, kombinovaných s klasickými technikami a využívajúcimi časopriestorové vlastnosti geodát. Spoločným menovateľom je využitie (časo-)priestorových vlastností geodát a geoinformacií v pokročilých metódach strojového učení. Cieľom výskumu je zhodnotiť možnosti vyhodnotenia predikcie cien nehnuteľností pomocou umelej inteligencie (najmä hlbokého učenia), metód analýzy príspevkov zo siete Twitter a DPZ s veľmi vysokým rozlíšením. Príchod veľkých dát otvoril množstvo príležitostí, jednou z nich je aj využitie v odvetví oceňovania nehnuteľností. Bežné zdroje a štatistické metódy, ktoré sa využívali pri odhade cien nehnuteľností, nahrádzajú zdroje veľkých dát [1]. Zároveň sa využíva hlboké a strojové učenie za pomoci neurónových sieti, v ktorých je možné implementovať hedonické a iné modely, ktoré nahrádzajú klasické štatistické prístupy. Modelovaniu však predchádzajú rôzne analýzy, predpríprava a spracovanie veľkých dát, do podoby vstupných dát pre hlboké a strojové učenie. Analýzy, modely a nástroje GIS ponúkajú širokú škálu možností, ktoré sa pred samotným modelovaním alebo počas neho dajú využiť [2]. Na spracovanie sa bude používať najmä programovací jazyk Python. Výhodou tohto jazyka je, že spolupracuje s mnohými knižnicami, ktoré sú odporúčané práve na hlboké učenie. Medzi takéto knižnice patrí TensorFlow, Keras, PyTorch či Scikit-learn. Okrem iného sa bude využívať PostgreSQL na ukladanie a správu dát, QGIS, ArcGIS Pro, poprípade knižnica GeoPandas na analýzy a predprípravu dát. Najdôležitejšou časťou je zakomponovanie obrazových dát (Street View a družicových snímkov) do modelu, ktorý bude predikovať ceny nehnuteľností. Nedávne výskumy boli zamerané na učenie sa súboru vizuálnych prvkov alebo reakcií z obrazových dát pomocou riadeného učenia [3]. Ďalšie vychádzali zo získaných poznatkov, a prišli s dvojstupňovou metódu učenia sa súboru generických a kompaktných latentných vizuálnych komponentov pomocou neriadeného učenia [4]. Súčasne 21. storočie ponúka širokú škálu možností využitia umelej inteligencie a GIS v oblasti oceňovania nehnuteľností. A aj keď na trhu vo svete a v Českej republike dominujú klasické prístupy určovania ceny nehnuteľností predovšetkým založené na klasickom regresnom hedonickom modely a na metóde, kde sa porovnávajú ceny odhadovanej nehnuteľnosti s nehnuteľnosťami s podobnými charakteristikami, sa do popredia dostavajú prístupy a modeli založené práve na umelej inteligencii v spojení s veľkými dátami. Úlohou tejto časti je dokázať, že sa okrem Street view a družicových snímkov, dajú využiť aj iné obrazové dáta napríklad Land Use a Land Cover. Zjednodušený pohľad, ktorý poskytuje Land Use a Land Cover, by mohol značne zjednodušiť a urýchliť proces učenia kompaktných latentných vizuálnych komponentov pre predikciu ceny nehnuteľností, prípadne ju vylepšiť. Ďalšou úlohou je vývoj nových postupov s využitím GIS pri budovaní modelov na odhadovanie cien nehnuteľností z veľkých dát pomocou zhlukových analýz, geograficky váženej regresie (GWR) alebo pomocou doplnenia veľkých dát o priestorové charakteristiky ako sú vzdialenosť od centra, vzdialenosť od parku, správanie obyvateľstva z twitteru, aká je rušnosť lokalít a iné. Naplnenie týchto krokov prinesie metódu na predikciu cien nehnuteľností s integráciou veľkých dát (textových i obrazových) a GIS, a nové postupy pre úlohy klasifikácie a zhlukovania. Výsledky a poznatky môžu využiť banky, realitné kancelárie ale aj vedecký pracovníci pri ďalších výskumoch (aj v iných oblastiach, ktoré sa nezaoberajú nehnuteľnosťami). Využitie sociálnych sietí pre danú problematiku je široké. Najvhodnejšou sociálnou sieťou pre podobné analýzy je v súčasnosti Twitter vzhľadom k dostupnosti dát, polohy, dobrého spracovania textov a povahy siete. Takto získané dáta je v prvom kroku nutné vhodne geokódovať [5]. Na geokódovanie textov príspevkov zo sociálnych sietí sa ako najefektívnejšie ukázali metódy strojového učenia a to konkrétne Support Vector Maschine (SVM) algoritmus [6]. Po umiestnení jednotlivých príspevkov do priestoru je vhodné zhodnotiť ich obsah. Na hodnotenie obsahu tweetov sa používajú metódy spracovania prirodzeného jazyka. Ide o sémantické analýzy, LDA modelovanie topikov [7]. Pre potreby tohto projektu sa bude analýza konkrétne zaoberať správaním užívateľov na twitteri v lokalitách s vysokými cenami nehnuteľností v porovnaní s lokalitami s nízkymi cenami nehnuteľností podobne ako v [8]. Ďalšou skúmanou oblasťou je štúdium dynamiky populácie. Pozemné kamerové systémy majú obmedzené pokrytie priestoru. Avšak rýchlo sa rozvíjajúce schopnosti leteckých a družicových systémov DPZ umožňujú lepšie plošné monitorovanie či pochopenie správania populácie. Detekcia objektov pomocou hlbokého učenia dokáže poskytnúť lepšiu presnosť, menšiu spotrebu času, menšiu zložitosť a celkovo poskytnú lepší výkon. Medzi najvýkonnejšie algoritmy detekcie objektov, ktoré budú použité, patria Faster RCNN (Faster Region-based Convolution Neural Network), SSD (Single Shot Multibox Detector) či YOLO (You Look Only Once) [9–13], je to aj z toho dôvodu, že je spracovávané heterogénne prostredie (mestská zástavba), kde pozadie a detekované objekty sú dosť podobné a je vhodné v takomto prostredí použiť jeden zo spomenutých algoritmov. Dôležité je pre neurónové siete rozdelenie snímok na testovaciu fázu, tréningovú a validačnú. Vzhľadom na využitie architektúry CNN bude potrebné dostatočne veľké množstvo dát, čo je veľmi náročné vzhľadom na cenu komerčných družicových snímok, ktoré budú využívané na spracovanie [14]. Budú sa používať družicové snímky WorldView-3 a WorldView-4 (panchromatický aj multispektrálny obraz) a to z dôvodu najlepšieho rozlíšenia, ktoré môžu komerčné zdroje poskytnúť. Preto bude dôležitým krokom spracovania tzv. zväčšenie údajov rôznymi technikami (zmena mierky, rotácia, horizontálne preklopenie atď.). Vo všetkých prípadoch je presnosť detekcie pomocou spomenutých techník na veľmi vysokej úrovni a to na úrovni 68% až 95% [12,15–17]. Aj v tomto prípade sa bude na spracovanie používať programovací jazyk Python a jeho knižnice spomenuté pri vývoji metódy na predikciu cien nehnuteľností. Detekcia ľudí z družicových dát nie je zatiaľ ani v literatúre príliš riešená, čo je jedna z motivácií prečo túto problematiku riešiť a zaoberať sa ňou. Vo väčšine sú záujmovým objektom autá, budovy poprípade stromy či živočíchy [9,11–13,15–19]. Detekcia ľudí by tak mohla poskytnúť informácie o rušnosti obyvateľstva v lokalitách. Takéto informácie by mohli slúžiť ako ďalšie dáta pre metódy na predikciu cien nehnuteľností. Spracovanie veľkých dát, či už v textovej alebo obrazovej podobe, si vyžaduje veľký výpočtový výkon, preto sa predpokladá investícia do výpočtovej stanice (PC). Spracovanie textových dát závisí od veľkosti operačnej pamäte RAM a kvality procesoru. Obrazové dáta budú spracované prostredníctvom grafickej karty, ktorá ponúka rýchlejšie spracovanie obrazových dát v porovnaní so spracovaním obrazových dát na RAM. Syntéza poznatkov zo všetkých častí dovolí zhodnotiť výhody a nevýhody jednotlivých prístupov a posúdiť možnosti integrácie algoritmov strojového a hlbokého učenia v GIS. Takýto význam je dôležitý okrem sledovaní dynamiky trhu s nehnuteľnosťami napr. pre urbanistické riešenie, krízové riadenie, banky, bezpečnostné analýzy a riešenia, dopravné úlohy, analýzy kriminality, sledovanie mobility ľudí a iné socioekonomické úlohy. Pre upresnenie, hlavnou oblasťou záujmu projektu je Vancouver, pre ktorý máme k dispozícií cca. 180 tisíc údajov o nehnuteľnostiach. Pre komparáciu bude vybraná i oblasť v ČR, predovšetkým Ostravsko. Čo sa týka testovacích lokalít bude vybraný intravilán s rôznou hustotou výstavby, s rôznou hustotou prevádzky, s rôznou hustotou zelene apod., aby sa ukázalo aké oblasti majú na cenu nehnuteľností pozitívny či negatívny vplyv. V rámci časového „rozvrhu“ je potrebné preskúmať jednotlivé úlohy uvedené v návrhu projektu, zvoliť správnu stratégiu a metodiku získavania obrazových a textových dát, získať dáta (obrazové a textové), otestovať postupy strojového a hlbokého učenia, a pripraviť výstupy, ktoré budú použité na prezentáciu vybraným tuzemským realitným kanceláriám (napr. Kaktus Reality), so žiadosťou o možnú spoluprácu v tejto oblasti a na získanie spätnej väzby. Zodpovedným riešiteľom projektu je Ing. Marek Ilenčík, ktorý sa zaoberá problematikou neurónových sieti, strojového a hlbokého učenia, a ich aplikácie v GIS, ktoré priamo súvisia s riešeným projektom. Témou jeho DiP je „Integrace algoritmů strojového a hlubokého učení v GIS“. V rámci predchádzajúceho bakalárskeho a magisterského štúdia absolvoval predmety s problematikou neurónových sieti, strojového a hlbokého učenia, spracovania geodát, priestorovej štatistiky a analýzy dát, a taktiež sa venoval tejto problematike aj počas svojej diplomovej práce na tému „Využití Street View a Družicových snímků pro odhad cen nemovitostí“. V priebehu nadväzujúceho magisterského štúdia sa zúčastnil dvoch projektov SGS ako člen riešiteľského tímu. Prvý projekt bol zameraný na detekciu pohybu obyvateľstva pomocou snímok veľmi vysokého rozlíšenia, druhý projekt bol zameraný na inovatívne geoinformatické metódy pre monitoring distribúcie a pohybu ľudí. Školiteľ prof. Ing. Igor Ivan, Ph.D. sa zaoberá problematikou aplikácie kvantitatívnych metód v geografii, predovšetkým v oblasti kriminológie a socioekonomické geografie a problematikou vizuálnej analytiky. Súčasťou riešiteľského tímu sú dvaja interný doktorandi, ich úlohy v projekte korešpondujú so zameraním ich dizertačných prác, resp. odborného zamerania. Ing. Martin Zajac, ktorý sa zaoberá problematikou spracovania dát zo sociálnych sietí, geoparsingu dát zo sociálnych sietí a spracovaniu prirodzeného jazyka. Témou jeho DiP je „Geoparsing a priestorový kontext príspevkov na sociálnych sieťach”. Ing. Peter Golej sa zaoberá analýzou dát DPZ pomocou pokročilých metód spracovania takých dát. Taktiež sa zaoberá analýzou dát pomocou neurónových sietí, hlavne pomocou CNN. Obe metódy analýzy dát DPZ a analýzy sociálnych sieti súvisia priamo s riešeným projektom. Témou jeho DiP je „Sledování toků lidí a dopravy na základě družicových pozorování“. Použitá literatúra: 1. Xue, C.; Ju, Y.; Li, S.; Zhou, Q. Research on the Sustainable Development of Urban Housing Price Based on Transport Accessibility: A Case Study of Xi’an, China. Sustainability 2020, 12, 1497, https://doi.org/10.3390/su12041497. 2. Wang, D.; Li, V.J. Mass Appraisal Models of Real Estate in the 21st Century: A Systematic Literature Review. Sustainability 2019, 11, 7006, https://doi.org/10.3390/su11247006. 3. Law, S.; Paige, B.; Russell, C. Take a Look Around: Using Street View and Satellite Images to Estimate House Prices. ACM Trans. Intell. Syst. Technol. 2019, 10, 1–19, https://doi.org/10.1145/3342240. 4. Law, S.; Neira, M. An Unsupervised Approach to Geographical Knowledge Discovery Using Street Level and Street Network Images. 2019, https://doi.org/10.48550/arXiv.1906.11907. 5. Fajar, A.S.G., Sani Muhamad Isa, Raditya Implementation of a Geocoding In Journalist Social Media Monitoring System. International Journal of Engineering Trends and Technology – IJETT, https://doi.org/10.14445/22315381/IJETT-V69I12P212. 6. Milusheva, S.; Marty, R.; Bedoya, G.; Williams, S.; Resor, E.; Legovini, A. Applying Machine Learning and Geolocation Techniques to Social Media Data (Twitter) to Develop a Resource for Urban Planning. PLOS ONE 2021, 16, e0244317, https://doi.org/10.1371/journal.pone.0244317. 7. Wang, D.; Al-Rubaie, A.; Clarke, S.S.; Davies, J. Real-Time Traffic Event Detection From Social Media. ACM Trans. Internet Technol. 2017, 18, 9:1-9:23, https://doi.org/10.1145/3122982. 8. Tan, M.J.; Guan, C. Are People Happier in Locations of High Property Value? Spatial Temporal Analytics of Activity Frequency, Public Sentiment and Housing Price Using Twitter Data. Applied Geography 2021, 132, 102474, https://doi.org/10.1016/j.apgeog.2021.102474. 9. Hou, B.; Ren, Z.; Zhao, W.; Wu, Q.; Jiao, L. Object Detection in High-Resolution Panchromatic Images Using Deep Models and Spatial Template Matching. IEEE Transactions on Geoscience and Remote Sensing 2020, 58, 956–970, https://doi.org/10.1109/TGRS.2019.2942103. 10. Zhang, Q.; Chang, X.; Bian, S.B. Vehicle-Damage-Detection Segmentation Algorithm Based on Improved Mask RCNN. IEEE Access 2020, 8, 6997–7004, https://doi.org/10.1109/ACCESS.2020.2964055. 11. Bin Zuraimi, M.A.; Kamaru Zaman, F.H. Vehicle Detection and Tracking Using YOLO and DeepSORT. In Proceedings of the 2021 IEEE 11th IEEE Symposium on Computer Applications & Industrial Electronics (ISCAIE); April 2021; pp. 23–29. 12. Stuparu, D.-G.; Ciobanu, R.-I.; Dobre, C. Vehicle Detection in Overhead Satellite Images Using a One-Stage Object Detection Model. Sensors (Basel) 2020, 20, 6485, https://doi.org/10.3390/s20226485. 13. Tan, Q.; Ling, J.; Hu, J.; Qin, X.; Hu, J. Vehicle Detection in High Resolution Satellite Remote Sensing Images Based on Deep Learning. IEEE Access 2020, 8, 153394–153402, https://doi.org/10.1109/ACCESS.2020.3017894. 14. Rawat, S. Airplanes Detection for Satellite Using Faster RCNN Available online: https://towardsdatascience.com/airplanes-detection-for-satellite-using-faster-rcnn-d307d58353f1 (accessed on 8 December 2021). 15. Arora, N.; Kumar, Y.; Karkra, R.; Kumar, M. Automatic Vehicle Detection System in Different Environment Conditions Using Fast R-CNN. Multimed Tools Appl 2022, 81, 18715–18735, https://doi.org/10.1007/s11042-022-12347-8. 16. Zambanini, S.; Loghin, A.-M.; Pfeifer, N.; Soley, E.M.; Sablatnig, R. Detection of Parking Cars in Stereo Satellite Images. Remote Sensing 2020, 12, 2170, https://doi.org/10.3390/rs12132170. 17. Chen, Y.; Qin, R.; Zhang, G.; Albanwan, H. Spatial Temporal Analysis of Traffic Patterns during the COVID-19 Epidemic by Vehicle Detection Using Planet Remote-Sensing Satellite Images. Remote Sensing 2021, 13, 208, https://doi.org/10.3390/rs13020208. 18. Duporge, I.; Isupova, O. Using Very‐high‐resolution Satellite Imagery and Deep Learning to Detect and Count African Elephants in Heterogeneous Landscapes - Duporge - 2021 - Remote Sensing in Ecology and Conservation - Wiley Online Library Available online: https://zslpublications.onlinelibrary.wiley.com/doi/full/10.1002/rse2.195 (accessed on 8 December 2021). 19. Tahir, A.; Munawar, H.S.; Akram, J.; Adil, M.; Ali, S.; Kouzani, A.Z.; Mahmud, M.A.P. Automatic Target Detection from Satellite Imagery Using Machine Learning. Sensors 2022, 22, 1147, https://doi.org/10.3390/s22031147. Pracovný harmonogram je možné dohľadať v priečinku projektovej dokumentácie pod názvom Ganttov diagram.
Rok zahájení
2023
Rok ukončení
2023
Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
Kategorie
SGS
Typ
Specifický výzkum VŠB-TUO
Řešitel
Zpět na seznam