온라인 강의 자료모음 기업교육

다양한 데이터 읽기 - PDF/워드(docx) 파일

이해하기 쉽고, 장황하지 않은 자료를 기반으로 강의를 진행합니다.
AI · 풀스택 · 데이터 로드맵 Dave Lee 한 강사가 설계부터 강의까지 모두
사이트 바로가기

4. 다양한 데이터 읽기 - PDF/워드(docx) 파일

4.1. 다양한 데이터 읽기 - PDF 파일

  • 웹 또는 데이터 중 PDF 로 되어 있는 파일에서 데이터 추출하기
    • pdfminer.six 라이브러리 활용
      • 현재 유지보수되는 pdfminer 포크 (Python 3 지원)
    • 설치
      • pip install pdfminer.six

  • 텍스트가 주로인 PDF 파일에서는 텍스트 파일을 읽을 때와 큰 차이 없이 텍스트 데이터 추출 가능
In [ ]:
from pdfminer.high_level import extract_text
from io import open
from urllib.request import urlopen

# pdfminer.six 고수준 API로 텍스트 추출
# pdf_file = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")  # 웹 PDF도 가능
pdf_file = open("03_data/sample.pdf", "rb")                                      # 로컬 PDF 예시
content = extract_text(pdf_file)
print(content)
pdf_file.close()

4.2. 다양한 데이터 읽기 - docx 파일

  • 웹 또는 데이터 중 MS WORD 파일인 docx 형식으로 되어 있는 파일에서 데이터 추출하기
    • docx2txt 라이브러리 활용
    • 설치
      • pip install docx2txt
In [ ]:
import docx2txt

text = docx2txt.process("03_data/sample.docx")
print(text)