Difference between r1.1 and the current
@@ -1,7 +1,39 @@
#noindex
##==크롤링,crawling =,crawling 크롤링 crawling
Rel
[[크롤러,crawler]]
= wikiadmin =
Page name via kornorms [[Date(2024-01-25T11:59:49)]]
##==크롤링,crawling =,crawling 크롤링 crawling
여기선 web crawling 말하는 중.
[[크롤러,crawler]]
[[봇,bot]]
[[에이전트,agent]]
[[검색엔진,search_engine]]
[[자료,data]]
[[추출,extraction]]
[[data_extraction]] =,data_extraction . data_extraction
{
'''data extraction'''
https://en.wikipedia.org/wiki/Data_extraction
https://en.wiktionary.org/wiki/data_extraction x 2024-03
} // data extraction ... Ggl:"data extraction" NN:"data extraction"
----
Cmp: web_scraping
https://ko.wikipedia.org/wiki/웹_스크래핑
https://namu.wiki/w/스크래핑
''...스크레이핑 같은데 NdEn:scraping''
https://en.wikipedia.org/wiki/Web_scraping
[[BeautifulSoup]]이 흔하게 쓰이는 library.
대충
scraping: 특정 site(혹은 특정 page)에서 정보 추출이 목적
crawling: 여러 links를 타고 다님, 동적으로 돌아다님(각 site/page마다 scraping을 함) - 검색엔진이 잘 하는.
이거? chk
----
https://namu.wiki/w/크롤링
[[웹페이지,web_page]]를 가져와서 [[자료,data]]를 [[추출,extraction]]하는(data_extraction) 행위.
= wikiadmin =
Page name via kornorms [[Date(2024-01-25T11:59:49)]]
여기선 web crawling 말하는 중.
Rel
크롤러,crawler
봇,bot
에이전트,agent
검색엔진,search_engine
자료,data
추출,extraction
data_extraction =,data_extraction . data_extraction
크롤러,crawler
봇,bot
에이전트,agent
검색엔진,search_engine
자료,data
추출,extraction
data_extraction =,data_extraction . data_extraction
{
data extraction
https://en.wikipedia.org/wiki/Data_extraction
https://en.wiktionary.org/wiki/data_extraction x 2024-03
} // data extraction ... data extraction data extraction
data extraction
https://en.wikipedia.org/wiki/Data_extraction
https://en.wiktionary.org/wiki/data_extraction x 2024-03
} // data extraction ... data extraction data extraction
Cmp: web_scraping
https://ko.wikipedia.org/wiki/웹_스크래핑
https://namu.wiki/w/스크래핑
...스크레이핑 같은데 scraping
https://en.wikipedia.org/wiki/Web_scraping
BeautifulSoup이 흔하게 쓰이는 library.https://namu.wiki/w/스크래핑
...스크레이핑 같은데 scraping
https://en.wikipedia.org/wiki/Web_scraping
대충
scraping: 특정 site(혹은 특정 page)에서 정보 추출이 목적
crawling: 여러 links를 타고 다님, 동적으로 돌아다님(각 site/page마다 scraping을 함) - 검색엔진이 잘 하는.
이거? chkcrawling: 여러 links를 타고 다님, 동적으로 돌아다님(각 site/page마다 scraping을 함) - 검색엔진이 잘 하는.