본문 바로가기

업무자동화/파이썬-셀레늄 기초4

[0/?] 정부 보도자료 다운로드로 크롤링 기초 다지기 시연영상 파이썬, 셀레늄 및 크롬을 활용하여 보도자료 다운로드하는 코드 시연화면 개인적인 사정으로 정부 보도자료를 많이 다운받아야 할 일이 생겨서 간단히 크롤링을 돌려보았습니다. 재미있게도 제가 시도했던 세 개 부처(행안부, 산업부, 여가부) 모두 30줄이 안 되는 간단한 코드로 다운로드할 수 있게 이루어져 있어서, 입문강의로 만들어보면 어떨까 하는 생각이 갑자기 들어서 녹화를 해놓았다가, 아무 편집 없이 유튜브에 업로드를 해버렸습니다. 구독자 분들께 영양가 없는 알림이 가는 것 같아 죄송한 마음도 들었지만.. 하여튼 위 작업을 주제로 한 크롤링 입문튜토리얼을 제작해서 8월중에 블로그에 무료공개 예정입니다. 강의 제작 중이지만 지금도 코드는 참고하실 수 있습니다. 영상 중간에 세 개 사이트 크롤링을 위해.. 2021. 8. 1.
셀레늄으로 인프런 강의정보를 크롤링해서, 수강료 인사이트 얻기[연재] 1. 튜토리얼 개요 국내 최고의 온라인강의 사이트 인프런에 업무자동화 강의를 올릴 예정입니다. 그냥 제 방식, 제 페이스대로 강의를 만들고 싶지만, 문득 궁금해졌습니다. 어떤 강의가 수강생 수가 많을까? (당연히 무료강의겠죠ㅜ) 그래서 강의시간이나 가격, 평점, 태그정보, 분야 뭐 이런 걸 크롤링으로 모아다가 인프런에서 제 강의가 가장 무난하게 잘 팔리게 하려면 어떻게 해야 할지, 전략적인 선택을 해 보고 싶어졌습니다. 뭐, 결국 제 방식으로 제가 아는 것 엮어다가 만들긴 하겠지만요;;; 또 어떤 분야의 강의가 많은지, 나름 RAW한 데이터로 분석해 보고 싶기도 했고요. 또 좋은 강의를 발견하면 수강신청도 하고요. 어느 정도 결론이 나온 상태에서 튜토리얼을 진행하면 재미가 없을 것 같아, 크롤링을 시작하.. 2021. 7. 13.
셀레늄-IE 크롤링 중 파일 자동다운로드 방법(진행중) feat. win32 필자는 내부(폐쇄)망 컴퓨터를 통해 일을 한다. 대부분의 업무는 IE브라우저를 통한 그룹웨어와, 악명(?)높은 아래아한글 문서로 처리하기 때문에 자동화가 수월하지 않다. 로그인 인증은 액티브X를 통해 진행되기 때문에 IE를 떠날 수도 없다. 최신 RPA 툴로는 더욱 자동화하기 힘들다. 이 글을 읽으시는 분이 공무원이거나 공공기관 직원이라면 공감하실 것이다. 특히 파이썬 유저라면, 엑셀파일을 pandas의 DataFrame으로 불러와서 데이터 가공을 하고 싶은데, 내부망에 엑셀파일을 옮기자마자 FasooDRM 때문에 암호화되고... 데이터는 불러와지지도 않는다. 옆의 인터넷망에선 노션과 트렐로, 마소 구글 네이버 카카오 모든 계정 로그인이 불가하고 엎친 데 덮친 격으로 아나콘다도 차단, pip downlo.. 2021. 5. 9.
국가기록원 기록물 뷰어 JPG 다운로드 by 파이썬 from time import sleep import selenium from selenium import webdriver driver = webdriver.Chrome(r"C:\Users\User\PycharmProjects\card_pub\chromedriver.exe") driver.get(r'http://www.archives.go.kr/next/search/searchTotalUp.do?totalSearchType=1&upside_query=%EA%B4%91%EC%97%85') # 사진, 필름류 클릭 driver.find_element_by_xpath('/html/body/div/div/div[7]/div[1]/ol/li[4]/a').click() # 100개보기 클릭 driver.find_e.. 2021. 1. 25.