spaCy là một thư viện Python mã nguồn mở, miễn phí dùng để xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP), được biết bằng hay ngôn ngữ lập trình là Python và Cython. spaCy có bản quyền MIT và cung cấp nhiều mô hình mạng thần kinh để xử lý ngôn ngữ tiếng Anh, Đức, Tây Ban Nha, Bồ Đào Nha, Pháp, Ý, Hà Lan và nhận dạng thực thể tên, token hóa ở nhiều ngôn ngữ khác, trong đó có cả tiếng Việt.
Nếu bạn thao tác với rất nhiều văn bản và bạn cần biết cấu trúc câu, từ, nghĩa các từ theo bối cảnh, cấu trúc ngữ pháp, nhận dạng thực thể,… thì spaCy là thư viện rất thích hợp để cài đặt. Trong bài này sẽ hướng dẫn bạn cài đặt spaCy để sử dụng trong Python, cách cài đặt có phần đơn giản nhưng không chú ý bạn có thể gặp rất nhiều lỗi.
Cài đặt Python
Để cài đặt spaCy, trước hết bạn nên cài đặt Python trước, bạn có thể theo hướng dẫn bài Cài đặt Python để thực hiện. Tuy nhiên, bạn lưu ý một số điểm:
- Khi cài đặt phải lưu ý Add Python to Path để có thể cài gói Python thông qua dòng lệnh. Chi tiết xem bài cài đặt ở trên.
- Python phải là phiên bản 64 bit mới có thể cài đặt gói spaCy và ít gặp lỗi. Lưu ý nên cài đặt gói Python ổn định chứ không phải cài gói Python phiên bản mới nhất.
- Nếu là hệ điều hành Windows thì phải cài đặt Microsoft Visual C++ 14.0 mới có thể cài đặt gói spaCy, đơn giản là spaCy sử dụng một số thư viện C++ để biên dịch mã nguồn. Bạn có thể cài Visual C++ ở địa chỉ: Visual CPP Build Tools hoặc có sẵn trong gói cài đặt Visual Studio mới nhất, ví dụ Visual Studio Express.
Cài đặt gói spaCy bằng dòng lệnh
Bạn mở cmd.exe dưới quyền Admin bằng cách gõ vào ô Search “cmd”, sau đó ở khung tìm kiếm bạn nhấn chuột phải chọn Run as Administrator. Xem hình sau để biết cách làm.
Tiếp theo, bạn nên nâng cấp gói pip trước đề phòng gói pip quá cũ bằng dòng lệnh:
python -m pip install --upgrade pip
Sau đó, cài đặt spaCy bằng dòng lệnh:
pip install spacy
Bạn có thể nâng cấp spaCy bằng dòng lệnh:
pip install -U spacy
Bạn đợi 1 vài phút để spaCy cài đặt xong, sau đó cài thêm gói xử lý ngôn ngữ. Ví dụ như tiếng Anh, bạn có thể chọn một số gói như en_core_web_sm (small), en_core_web_md (medium), en_core_web_lg (large). Tính năng mỗi gói xem ở đây: English Models.
Chọn 1 trong các dòng sau để cài gói xử lý tiếng Anh bạn muốn:
python -m spacy download en python -m spacy download en_core_web_sm python -m spacy download en_core_web_md python -m spacy download en_core_web_lg
Để cài các gói ngôn ngữ khác, bạn có thể tìm hiểu thêm ở Language Models và cài đặt theo ý muốn.
Cài đặt gói spaCy bằng chương trình Anaconda
Anaconda là một nền tảng để thực hiện các nghiên cứu khoa học, trong đó có xử lý ngôn ngữ tự nhiên với Python. Bạn chỉ cần tải Anaconda tại địa chỉ Anaconda Distribution và cài đặt như thông thường.
Chạy Anaconda Prompt bằng cách gõ Anaconda vào ô tìm kiếm gần cửa sổ Start, sau đó Run as Administrator. Bạn có thể xem hình sau biết cách làm.
Sau đó, bạn cũng làm tương tự như các bước trên, đó là:
conda install -c conda-forge spacy
Sau đó cài 1 trong các gói xử lý tiếng Anh bạn muốn:
python -m spacy download en python -m spacy download en_core_web_sm python -m spacy download en_core_web_md python -m spacy download en_core_web_lg
Như vậy bài viết này đã hướng dẫn xong cách cài đặt gói spaCy trong Python trên hệ điều hành Windows. Nếu bạn gặp lỗi hay thắc mắc có thể để lại bình luận ở dưới. Chúc bạn thành công!
Một số khóa học Python bằng tiếng Anh: Khóa học Python ở Course Duck!
- APA:
Dammio. (2019). Cài đặt thư viện spaCy dùng để xử lý ngôn ngữ tự nhiên trong Python trên hệ điều hành Windows. https://www.dammio.com/2019/11/04/cai-dat-thu-vien-spacy-dung-de-xu-ly-ngon-ngu-tu-nhien-trong-python-tren-he-dieu-hanh-windows.
- BibTeX:
@misc{dammio,
author = {Dammio},
title = {Cài đặt thư viện spaCy dùng để xử lý ngôn ngữ tự nhiên trong Python trên hệ điều hành Windows},
year = {2019},
url = {https://www.dammio.com/2019/11/04/cai-dat-thu-vien-spacy-dung-de-xu-ly-ngon-ngu-tu-nhien-trong-python-tren-he-dieu-hanh-windows},
urldate = {2024-11-06}
}