본문 바로가기

크롤링7

파이썬으로 avif 이미지를 png로 변환하는 방법 # %pip install pillow-avif-plugin Pillow from PIL import Image import pillow_avif img = Image.open("input.avif") img.save("output.png") 2023. 8. 16.
[부동산지인 크롤링] 지역/기간별 미분양 세대수 수집하는 파이썬 코드 유튜브의 부동산지인 크롤링 시리즈 중 미분양세대수 수집 프로그램의 최종코드입니다. 미분양데이터 크롤링 1부 미분양데이터 크롤링 2부 파이썬 소스코드 city_list = [ ["1100000000", "1168000000"], # 서울특별시 강남구 ["1100000000", "1174000000"], # 서울특별시 강동구 ["1100000000", "1130500000"], # 서울특별시 강북구 ["1100000000", "1150000000"], # 서울특별시 강서구 ["1100000000", "1162000000"], # 서울특별시 관악구 ["1100000000", "1121500000"], # 서울특별시 광진구 ["1100000000", "1153000000"], # 서울특별시 구로구 ["11000.. 2023. 2. 7.
정부부처 보도자료에 필드가 적용되어 요약 언어모델 데이터셋 만들기 쉬워졌다 과기정통부와 행안부 보도자료를 살펴보다가 재미있는 점을 두 가지 발견했습니다. 하나는, 보도자료에 machine-readable한 hwpx 포맷으로 바뀌어가고 있다는 점이며 다른 하나는 올해 초, 1월 말 경부터 한/글 문서에 필드와 누름틀이 매겨지고 있다는 점입니다. 이 두 가지는 항상 양질의 데이터에 배고픈 요즘 시대에 아주 큰 강점이 됩니다. 예를 들어보겠습니다. 1. 뉴스기사 크롤링할 때 얼마 전부터 KoGPT나 KoBART 등 한국어 대규모 언어모델이 개발되고 있는데, 학습데이터셋 대부분은 웹에 공개된 언론 뉴스기사나 위키자료 등이죠. 크롤링으로 대규모의 자료를 스크랩해오더라도 데이터셋의 전/후처리가 쉽지 않은데, 그 이유는 언론사마다 제각각인 시맨틱 태그, 맥락없이 중간중간 삽입된 사진설명, .. 2022. 9. 22.
[0/?] 정부 보도자료 다운로드로 크롤링 기초 다지기 시연영상 파이썬, 셀레늄 및 크롬을 활용하여 보도자료 다운로드하는 코드 시연화면 개인적인 사정으로 정부 보도자료를 많이 다운받아야 할 일이 생겨서 간단히 크롤링을 돌려보았습니다. 재미있게도 제가 시도했던 세 개 부처(행안부, 산업부, 여가부) 모두 30줄이 안 되는 간단한 코드로 다운로드할 수 있게 이루어져 있어서, 입문강의로 만들어보면 어떨까 하는 생각이 갑자기 들어서 녹화를 해놓았다가, 아무 편집 없이 유튜브에 업로드를 해버렸습니다. 구독자 분들께 영양가 없는 알림이 가는 것 같아 죄송한 마음도 들었지만.. 하여튼 위 작업을 주제로 한 크롤링 입문튜토리얼을 제작해서 8월중에 블로그에 무료공개 예정입니다. 강의 제작 중이지만 지금도 코드는 참고하실 수 있습니다. 영상 중간에 세 개 사이트 크롤링을 위해.. 2021. 8. 1.
셀레늄으로 인프런 강의정보를 크롤링해서, 수강료 인사이트 얻기[연재] 1. 튜토리얼 개요 국내 최고의 온라인강의 사이트 인프런에 업무자동화 강의를 올릴 예정입니다. 그냥 제 방식, 제 페이스대로 강의를 만들고 싶지만, 문득 궁금해졌습니다. 어떤 강의가 수강생 수가 많을까? (당연히 무료강의겠죠ㅜ) 그래서 강의시간이나 가격, 평점, 태그정보, 분야 뭐 이런 걸 크롤링으로 모아다가 인프런에서 제 강의가 가장 무난하게 잘 팔리게 하려면 어떻게 해야 할지, 전략적인 선택을 해 보고 싶어졌습니다. 뭐, 결국 제 방식으로 제가 아는 것 엮어다가 만들긴 하겠지만요;;; 또 어떤 분야의 강의가 많은지, 나름 RAW한 데이터로 분석해 보고 싶기도 했고요. 또 좋은 강의를 발견하면 수강신청도 하고요. 어느 정도 결론이 나온 상태에서 튜토리얼을 진행하면 재미가 없을 것 같아, 크롤링을 시작하.. 2021. 7. 13.
셀레늄-IE 크롤링 중 파일 자동다운로드 방법(진행중) feat. win32 필자는 내부(폐쇄)망 컴퓨터를 통해 일을 한다. 대부분의 업무는 IE브라우저를 통한 그룹웨어와, 악명(?)높은 아래아한글 문서로 처리하기 때문에 자동화가 수월하지 않다. 로그인 인증은 액티브X를 통해 진행되기 때문에 IE를 떠날 수도 없다. 최신 RPA 툴로는 더욱 자동화하기 힘들다. 이 글을 읽으시는 분이 공무원이거나 공공기관 직원이라면 공감하실 것이다. 특히 파이썬 유저라면, 엑셀파일을 pandas의 DataFrame으로 불러와서 데이터 가공을 하고 싶은데, 내부망에 엑셀파일을 옮기자마자 FasooDRM 때문에 암호화되고... 데이터는 불러와지지도 않는다. 옆의 인터넷망에선 노션과 트렐로, 마소 구글 네이버 카카오 모든 계정 로그인이 불가하고 엎친 데 덮친 격으로 아나콘다도 차단, pip downlo.. 2021. 5. 9.
selenium으로 크롤링할 때 frame과 object 태그 차이 html 안에 html을 삽입해놓은 웹사이트가 많이 있다. 한 개의 html 안에 수천 수만줄의 태그와 js를 유지관리하기도 힘드니, 어찌 보면 개발자 입장에서 당연할 수 있다. 이 때 삽입하는 방법은 주로 iframe태그를 넣거나, object 태그를 넣는 방법 중 하나로 하는데 각각을 크롤링하는 방법에 작은 차이가 있다. 우선 iframe이 삽입되어 있는 경우는(주로 동영상 플레이어나, 메뉴바, 사이드바와 본문내용이 구분되는 경우에 사용) driver.find_element_~가 아니라 driver.switch_to.frame(프레임name이나 id)로 접근하고, 상위프레임으로 이동해야 할 때 다시 driver.switch_to.parent_frame 이나 driver.switch_to.default.. 2020. 3. 31.