selenium 3

[python] CES 뉴스 크롤링 /csv 파일명에 날짜 지정하기

다음주면 CES 관련 뉴스가 쏟아질 듯 하여, 하루에 한 번 씩 CES관련 뉴스를 크롤링하는 코드를 만들어뒀다. 나중에 키워드만 쓱 바꾸면 다른 주제로도 잘 써먹을 수 있을 듯! 1. CES 키워드로 네이버 뉴스탭에 나오는 뉴스를 크롤링한다 2. 네이버 뉴스는 알아서 클러스터링되기 때문에, 동일주제는 1개 뉴스만 가져온다 3. 페이징 처리가 되어있기 때문에 1페이지부터 10페이지까지 수집한다 4. 어제자 수집 파일과 비교하여 새로운 url만 수집한다 1. csv파일명에 날짜 넣기 2. 날짜 조작 (어제, 오늘 등) 3. pandas 컬럼명 변경 4. pandas 컬럼 삭제(drop) 5. pandas index 삭제, 초기화 ( reset) 6. pandas left join 7. pandas 중복 값 ..

언어/Python 2021.01.08

[Python] CES 2021 Awards 수상작 크롤링

CES 준비를 하는데 너무 리스트도 많고 힘이 들어서, 수상작 리스트 크롤링을 해봤다. 너무 오랜만에 하는지라 ^_^ 1. 설치 및 import #셀레니움,크롬드라이버 설치 !pip install selenium !apt-get update # to update ubuntu to correctly run apt install !apt install chromium-chromedriver !cp /usr/lib/chromium-browser/chromedriver /usr/bin import sys sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver') from selenium import webdriver chrome_options = webdriver..

언어/Python 2021.01.07

[Python] 영화진흥위원회 상영관 데이터 웹크롤링

친구가 알려준 웹 크롤링을 연습해보려고가끔 들어가서 보던 영진위 통합전산망 사이트에서 정보를 긁어와봤다! 나도 구글링으로 도움을 많이 받았는데,누군가에게 도움이 되면 좋겠다 :D Google colab 이용 했다..고쳐야할 것도 좀 있긴한데, 주석은 나중에 시간 될 때 달아보려고 한다. 대상되는 사이트는 아래와 같이 생겼다.영화의 목록이 총 몇개인지는 알 수 없으나, 표 하나를 온전히 긁어내려면더보기를 계속 눌렀어야 했다. 추가로, 영화 코드 정보도 함께 얻고 싶었지만영화코드는 영화를 클릭해서 가져오거나, 또는 html 코드 안에 있는 것을 가져와야 했다.html 코드 안에 있는 것을 가져오는게 더 수월하다고 판단했다. html 코드를 보려면, 크롬 브라우저에서 html 확인을 원하는 부분에 마우스를 대..

언어/Python 2020.10.11