다양한 데이터 읽기 - PDF/워드(docx) 파일
이해하기 쉽고, 장황하지 않은 자료를 기반으로 강의를 진행합니다.
4. 다양한 데이터 읽기 - PDF/워드(docx) 파일¶
4.1. 다양한 데이터 읽기 - PDF 파일¶
- 웹 또는 데이터 중 PDF 로 되어 있는 파일에서 데이터 추출하기
- pdfminer.six 라이브러리 활용
- 현재 유지보수되는 pdfminer 포크 (Python 3 지원)
- 설치
- pip install pdfminer.six
- pip install pdfminer.six
- pdfminer.six 라이브러리 활용
- 텍스트가 주로인 PDF 파일에서는 텍스트 파일을 읽을 때와 큰 차이 없이 텍스트 데이터 추출 가능
In [ ]:
from pdfminer.high_level import extract_text
from io import open
from urllib.request import urlopen
# pdfminer.six 고수준 API로 텍스트 추출
# pdf_file = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf") # 웹 PDF도 가능
pdf_file = open("03_data/sample.pdf", "rb") # 로컬 PDF 예시
content = extract_text(pdf_file)
print(content)
pdf_file.close()
4.2. 다양한 데이터 읽기 - docx 파일¶
- 웹 또는 데이터 중 MS WORD 파일인 docx 형식으로 되어 있는 파일에서 데이터 추출하기
- docx2txt 라이브러리 활용
- 설치
- pip install docx2txt
In [ ]:
import docx2txt
text = docx2txt.process("03_data/sample.docx")
print(text)