Create Opportunities

업무 자동화를 위한 Selenium 크롤링 (2) 본문

나의 생각들

업무 자동화를 위한 Selenium 크롤링 (2)

kimjaeyoon 2023. 7. 15. 22:13
Data Collector

엑셀 파일로 저장해둔 유튜브 링크를 input으로 넣어준다.

from webdriver_manager.chrome import ChromeDriverManager
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
import pandas as pd
import time

excel_file = '/home/kimjaeyoon/바탕화면/kimjaeyoon/Youtube_Links.xlsx'
data = pd.read_excel(excel_file)
link_list = data['주소'].to_list()

input xpath와 enter xpath를 웹페이지 관리자 도구에서 확인한다.

input_xpath = '//*[@id="youtube_link_input"]'
enter_xpath = '//*[@id="upload_link_btn"]'

아래와 같이 입력을 링크를 전부 넣어준다.

chrome_options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install(), options=chrome_options))

driver.get('Data_Collector')
driver.find_element(By.TAG_NAME, 'body')

for i, link in enumerate(link_list, start=1):
    input_element = driver.find_element(By.XPATH, input_xpath)
    input_element.clear()
    input_element.send_keys(link)
    driver.find_element(By.XPATH, enter_xpath).click()
    time.sleep(7)
    
    if i % 10 == 0:
        driver.refresh()
        time.sleep(5)

Input으로 들어간 영상은 Naver CLOVA에서 개발한 ASR 모델을 사용하여 텍스트 데이터를 수집했고, ASR 모델의 Timestamp 정보를 활용하여 영상을 분할하는 작업까지 거쳤다. 또한 메타휴먼을 개발한 뒤 더 많은 데이터를 수집해서 Fusion Learning을 고민하기 위해 OSX Pose estimation (CVPR 2023) 모델을 사용해서 자세 추정에 대한 Parameter도 추출했다. 선임 연구원님께서 일주일도 안되는 시간동안 모두 끝내버리셨다.

 
데이터 구축 업무를 맡으면서 많은 것을 느낀 것 같다. 데이터 구축 업무 뿐 아니라, 직원 분들의 연구를 가까이서 보면서 인공지능 원천 기술에 대한 생각도 많이 하게 한 것 같다.
 
뜬구름 잡는 것이 아닌가? 하는 생각이 가장 많이 들었다. 늘 해오던 생각이지만, Output을 바로바로 확인할 수 있는? 일을 하고 싶었다. 연구를 하게 되더라도 산업 공학 베이스의 도메인이 뚜렷한 인공지능 개발이든 뭐든 하고 싶었다. 지금은 내가 뭐 하나 제대로 할 수 있을까.. 라는 생각도 들지만, 그냥 순리대로 흘러가는 인생을 살아야 할 것 같다.
당연히 내가 잘한다면 뭐든 재밌을 것 같긴하다. 무엇이든 바로바로 코드로 구현할 수 있는 능력이라던지.. 생각한 모델을 빠르게 이어 붙일 수 있다던지..ㅜㅜ
 
아 몰라~ 사랑이나 하자~

'나의 생각들' 카테고리의 다른 글

업무 자동화를 위한 Selenium 크롤링 (1)  (2) 2023.07.15