1. ผลิตภัณฑ์
  2.   ส่งผลทดเนื้อในการแปลง

ตัวแยกข้อความ PDF สำหรับ .NET

ดึงเนื้อหาที่บริสุทธิ์ ดิบ หรือข้อความธรรมดาจากเอกสาร PDF ด้วย Documentize .NET Plug

ตัวสร้างเนื้อหาข้อความสำหรับ .NET

ขอแนะนำ Documentize Text Extractor สำหรับปลั๊กอิน .NET - เครื่องมือทรงพลังที่ช่วยทำให้กระบวนการดึงข้อมูลจากเอกสาร PDF ของคุณง่ายขึ้น ปลั๊กอินนี้ไม่ได้เป็นเพียงแค่เครื่องดึงข้อความ - แต่มันเป็นโซลูชันที่ครบวงจรที่ช่วยเพิ่มประสิทธิภาพและความหลากหลายของกระบวนการจัดการเอกสารของคุณ ปลั๊กอินทำงานโดยการสแกนเอกสาร PDF ของคุณและระบุข้อความที่ฝังอยู่ จากนั้นจะดึงข้อความนี้ออกมาในขณะที่รักษารูปแบบและโครงสร้างเดิมไว้ กระบวนการนี้เกี่ยวกับการเพิ่มการเข้าถึงและการใช้งานของเนื้อหาของคุณ หนึ่งในคุณสมบัติเด่นของปลั๊กอินนี้คือความสามารถในการนำเสนอสามโหมดการทำงาน: โหมดบริสุทธิ์, โหมดดิบ และโหมดธรรมดา โหมดบริสุทธิ์จะทำการดึงข้อความในขณะที่รักษาฟอร์แมตดั้งเดิมไว้ โหมดดิบจะดึงข้อความตามที่เป็นอยู่โดยไม่มีการจัดฟอร์แมตใดๆ โหมดธรรมดาจะดึงข้อความและลบตัวอักษรพิเศษหรือการจัดฟอร์แมตออก โหมดเหล่านี้มอบความยืดหยุ่นและความสะดวกสบายสำหรับงานการดึงข้อความในแอปพลิเคชัน .NET ช่วยให้คุณสามารถเลือกโหมดที่ดีที่สุดที่เหมาะกับความต้องการของคุณได้ อย่างไรก็ตาม ประโยชน์ของปลั๊กอินนี้เกินกว่าการแยกข้อความ มันยังเสนอขั้นตอนการแยกที่ราบรื่นและมีประสิทธิภาพ ลดเวลาและความพยายามที่จำเป็นในการแยกข้อความจาก PDF ของคุณ ด้วยปลั๊กอินนี้ คุณสามารถสัมผัสถึงความสะดวกในการแยกข้อความอย่างรวดเร็วและง่ายดาย สรุปแล้ว, Documentize Text Extractor สำหรับปลั๊กอิน .NET เป็นโซลูชันที่ครบครันซึ่งช่วยให้การดึงข้อความจากเอกสาร PDF ของคุณเป็นไปอย่างราบรื่น, เพิ่มความสามารถในการเข้าถึงเนื้อหาของคุณ, และทำให้กระบวนการจัดการเอกสารของคุณมีประสิทธิภาพมากขึ้น ลองใช้เลยวันนี้และสัมผัสกับความสะดวกและประสิทธิภาพของปลั๊กอินของเรา ค้นพบระดับใหม่ของประสิทธิภาพ!

วิธีการสกัดข้อความจาก PDF ผ่าน .NET

  • เอกสารอ้างอิงในโปรเจ็กต์ของคุณ
  • ตั้งค่ากุญแจไลเซนส์ของคุณ
  • สร้างอินสแตนซ์ของ TextExtractorOptions
  • เพิ่มเอกสาร PDF โดยใช้ TextExtractorOptions.AddDataSource
  • เรียกใช้ TextExtractorOptions.Process และกำหนดผลลัพธ์ไว้ที่ ResultContainer
  • เข้าถึงข้อความที่ถูกสกัดออกมาโดยใช้ ResultContainer.ResultCollection

เริ่มต้นใช้งาน PDF Text Extractor

ดึงไฟล์ประกอบจากการดาวน์โหลดหรือนำเข้าชุดแพ็กเกจจาก NuGet เพื่อเพิ่ม Documentize โดยตรงในพื้นที่ทำงานของคุณ

  • ระบบปฏิบัติการที่รองรับรวมไปถึง Windows 7-11 และ Windows Server 2003-2022, macOS (10.12+) และ Linux
  • รองรับเฟรมเวิร์กตั้งแต่เวอร์ชัน 4.0 ถึง 7.0
  • รองรับกับเวอร์ชัน Microsoft Visual Studio ต่าง ๆ


วิธีการสกัดข้อความจาก PDF หลายไฟล์

  • เอกสารอ้างอิงสำหรับ .NET ในโครงการของคุณ
  • ตั้งค่ากุญแจไลเซนส์ของคุณ
  • สร้างอินสแตนซ์ของ TextExtractor และ TextExtractorOptions
  • เพิ่มเอกสาร PDF โดยใช้ TextExtractorOptions.AddDataSource
  • เรียกใช้ TextExtractor.Process พร้อมกับตัวแปรของ TextExtractorOptions เป็นพารามิเตอร์
  • รับผลลัพธ์เข้าสู่อินสแตนซ์ของ ResultContainer
  • เข้าถึงข้อความที่ถูกแยกออกมาโดยใช้ ResultContainer.ResultCollection

โหมดการทำงานของโปรแกรมสร้างข้อความ

  • ตัวเลือก Pure ช่วยให้สามารถแยกข้อความจากไฟล์ PDF ด้วยกระบวนการจัดรูปแบบที่หลากหลาย โดยผสานตำแหน่งสัมพันธ์และเพิ่มช่องว่างเพิ่มเติมเพื่อจัดให้ข้อความชิดกับความกว้างของหน้ากระดาษ
  • โหมด Raw สามารถดึงข้อความจากไฟล์ PDF โดยไม่ต้องใช้การจัดรูปแบบใดๆ
  • โหมด Plain ดึงข้อความจากไฟล์ PDF โดยคำนึงถึงตำแหน่งสัมพันธ์ของชิ้นส่วนข้อความ แต่ไม่เหมือนกับโหมด “Pure” มันจะไม่เพิ่มพื้นที่ว่างเพิ่มเติม

คำถามที่พบบ่อย

Documentize Text Extractor สำหรับ .NET ทำอะไร?

Documentize Text Extractor สำหรับ .NET เป็นปลั๊กอินที่ออกแบบมาสำหรับแอปพลิเคชัน .NET ซึ่งมีฟังก์ชันการแยกข้อความจากเอกสาร PDF โดยมีโหมดการทำงานสามแบบ ได้แก่ Pure, Raw และ Plain โดยค่าเริ่มต้นจะเป็นโหมด ‘Raw’ รองรับตัวเลือกการนำเข้าและส่งออกที่หลากหลาย อนุญาตให้ประมวลผลไฟล์ PDF หลายไฟล์พร้อมกัน และให้ความสามารถในการปรับแต่งสำหรับนักพัฒนา ทำให้เป็นทางออกที่สะดวกสำหรับการแยกข้อความในสภาพแวดล้อม .NET

ความแตกต่างระหว่าง Documentize for .NET และ Documentize Text Extractor for .NET คืออะไร?

Documentize สำหรับ .NET เป็น API ที่แข็งแกร่งสำหรับงาน PDF ที่หลากหลาย รวมถึงการสร้างเอกสาร การบีบอัด การสร้างตาราง และฟีเจอร์ขั้นสูง เช่น การนำเข้าข้อมูลและส่งออกข้อมูล PDF ในทางตรงกันข้าม Documentize Text Extractor สำหรับ .NET เป็นปลั๊กอินที่เฉพาะเจาะจงซึ่งมุ่งเน้นที่การสกัดข้อความจากเอกสาร PDF อย่างเดียว โดยเน้นที่ความสามารถในการสกัดข้อความ

Documentize Text Extractor สำหรับ .NET ถูกจำกัดเฉพาะการดึงข้อความจาก PDF เท่านั้นหรือไม่?

ใช่, PDF Text Extractor สำหรับ .NET ถูกออกแบบมาโดยเฉพาะสำหรับการดึงข้อมูลข้อความจาก PDF สำหรับการดำเนินการอื่น ๆ คุณสามารถใช้ปลั๊กอิน PDF อื่น ๆ หรือความสามารถทั้งหมดของไลบรารี Documentize ได้

Documentize มีเครื่องมือออนไลน์สำหรับการดึงข้อมูลข้อความจาก PDF หรือไม่?

ใช่, Documentize มีเครื่องมือ ฟรีออนไลน์ PDF Text Parser สำหรับความต้องการพื้นฐาน

ฉันสามารถหาตัวอย่างการดึงข้อความจาก Documentize ใน C# ได้ที่ไหน?

ค้นพบหน้าแลนดิ้งของเรา สำหรับ การดึงข้อมูลจาก PDF สำหรับ .NET

 แบบไทย