Skip to content

This project is an application on PHP designed to perform optical character recognition (OCR) on images in order to extract text data. It uses the Tesseract OCR engine, which is open source software for OCR, supporting a wide range of languages and known for its accuracy

Notifications You must be signed in to change notification settings

ramin123/OCR-Recognition-of-text-data-from-images-in-PHP

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

OCR Распознавание текстовых данных по изображениям на PHP

Этот проект представляет собой приложение на PHP, предназначенное для выполнения оптического распознавания символов (OCR) на изображениях с целью извлечения текстовых данных. В нем используется движок Tesseract OCR, который является открытым программным обеспечением для OCR, поддерживающим широкий спектр языков и известным своей точностью.

Особенности

  • Распознает текст на изображениях с помощью движка Tesseract OCR.
  • Поддерживает несколько языков на основе языковых пакетов Tesseract.
  • Предоставляет простой интерфейс на PHP для отправки изображений на обработку OCR.
  • Возвращает распознанный текст в структурированном формате для дальнейшего использования.

Требования

  • PHP 7.0 или выше
  • Установленный на сервере движок Tesseract OCR
  • Языковые данные Tesseract для языков, которые вы хотите поддерживать

Установка

  1. Клонируйте репозиторий или загрузите исходный код с GitHub.
  2. Убедитесь, что на вашем сервере установлен движок Tesseract OCR. Вы можете установить его с помощью менеджера пакетов (например, apt-get install tesseract-ocr в Ubuntu/Debian).
  3. Установите необходимые языковые данные для Tesseract с помощью вашего менеджера пакетов (например, apt-get install tesseract-ocr-[lang]).
  4. Разместите исходный код в корневом каталоге вашего веб-сервера или настройте сервер для указания на каталог проекта.

Использование

123

OCR Text Recognition from Images in PHP

This project is a PHP application designed to perform Optical Character Recognition (OCR) on images to extract textual data. It utilizes the Tesseract OCR engine, an open-source OCR software that supports a wide range of languages and is known for its accuracy.

Features

  • Recognizes text within images using the Tesseract OCR engine.
  • Supports multiple languages based on Tesseract's language packs.
  • Provides a simple PHP interface to submit images for OCR processing.
  • Returns recognized text in a structured format for further use.

Requirements

  • PHP 7.0 or higher
  • Tesseract OCR engine installed on the server
  • Tesseract language data for the languages you wish to support

Installation

  1. Clone the repository or download the source code from GitHub.
  2. Ensure that the Tesseract OCR engine is installed on your server. You can install it using a package manager (e.g., apt-get install tesseract-ocr on Ubuntu/Debian).
  3. Install the necessary language data files for Tesseract using your package manager (e.g., apt-get install tesseract-ocr-[lang]).
  4. Place the source code in the root directory of your web server or configure the server to point to the project directory.

Usage

123

About

This project is an application on PHP designed to perform optical character recognition (OCR) on images in order to extract text data. It uses the Tesseract OCR engine, which is open source software for OCR, supporting a wide range of languages and known for its accuracy

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published