IP mạng thần kinh nhằm vào SoC xử lý lời nói phức tạp

Tài nguyên đủ để nhận dạng giọng nói ở trường xa, nơi người dùng cách micrô hàng mét. Trợ lý kỹ thuật số điều khiển bằng giọng nói và thông tin giải trí ô tô là những ứng dụng dự định.

Tại sao xử lý lời nói trên PCB địa phương?

Các thuật toán nhận dạng giọng nói dựa trên mạng của nơ-ron đang thực hiện nhiều tác vụ cục bộ hơn là trên đám mây, do lo ngại về độ trễ, tính riêng tư và tính khả dụng của mạng, theo ông Cadence.

Được gọi là HiFi 5, nó có khả năng xử lý âm thanh gấp đôi và gấp bốn lần xử lý mạng thần kinh (NN) của HiFi 4 DSP trước đó.

Mục tiêu của chúng tôi là làm cho một công cụ từ vựng lớn có sẵn tại địa phương có khả năng xử lý ngôn ngữ tự nhiên, giám đốc tiếp thị của Cad Cadence Gerard Andrews nói với Electronics Weekly. Chúng tôi đã khảo sát các mạng nơ ron nhận dạng giọng nói nguồn mở và chúng tôi đã thiết kế HiFi 5 để chạy các loại mạng đó.

Các yếu tố xử lý bao gồm:

Kiến trúc 5 từ rất dài (VLIW) có khả năng phát ra hai lần tải 128 bit mỗi chu kỳ
Bộ tích lũy DSP:
Hỗ trợ 8 MAC 32x32bit / chu kỳ hoặc 16 16x16bit MAC / chu kỳ
Tùy chọn tám MAC dấu phẩy động chính xác đơn mỗi chu kỳ
Bộ tích lũy số nhân mạng thần kinh:
32 16 × 8 MAC / chu kỳ hoặc 16 × 4 MAC / chu kỳ
Tùy chọn 16 MAC dấu phẩy động nửa chính xác mỗi chu kỳ

Các MAC DSP, theo Andrew, bao gồm, ví dụ, hỗ trợ bão hòa, trong khi MAC mạng thần kinh được tối ưu hóa để nhân giá trị vectơ với ma trận. Ông nói, trong nhiều mạng lưới thần kinh, cuối cùng bạn đã dành một lượng lớn thời gian để nhân một vectơ với một ma trận, ông nói, nói thêm rằng: sự lựa chọn của bao nhiêu MAC, và loại dữ liệu và độ dài trọng lượng cần hỗ trợ, là dựa trên công việc với khách hàng HiFi 4.

Toán học dấu phẩy động đã được kết hợp cho hai trường hợp sử dụng - độ chính xác duy nhất cho mặt trước phát âm để hình thành chùm và khử tiếng vang và độ chính xác một nửa cho một số mạng thần kinh. Điểm nổi của hoàng cung cấp cho thời gian tiếp thị nhanh chóng, ông Andrew nói. Ví dụ, nếu bạn phát triển một điểm nổi trong MatLab, việc chuyển đổi nó thành điểm cố định khá tốn thời gian.

Hệ số nhân hỗ trợ trọng lượng 8 bit vì xu hướng lớn là định lượng xuống mức 8 bit để nhận dạng giọng nói, không phải đánh đổi quá nhiều về độ chính xác. Bạn có thấy các bài báo được trình bày trong đó mọi người đang cố gắng giảm xuống 4 bitcoin, ông Andrew nói. Chúng tôi dự đoán rằng hầu hết các thuật toán sẽ tận dụng hệ số nhân 16x8bit của chúng tôi: 16 bit cho dữ liệu từ micrô và 8 bit cho trọng số.

Cadence_Tensilica_HiFi5_DSP_overview-617

Đối với các sơ đồ trọng số khác, hoạt động 4 bit, 2 bit và 1 bit có sẵn cũng như 8 bit.

Ambiq Micro, nhà sản xuất bộ vi điều khiển được xây dựng trên các quy trình silicon ngưỡng ngưỡng phụ để tiết kiệm năng lượng, là khách hàng đầu tiên của HiFi 5.

Ambiq Micro đã chọn trở thành người cấp phép silicon đầu tiên của Cadence, HiFi 5 DSP, cho biết, để đáp ứng thách thức cực kỳ khó khăn trong việc đưa các thuật toán nhận dạng giọng nói và xử lý giọng nói dựa trên mạng thần kinh chuyên sâu vào các thiết bị nhạy cảm với năng lượng. Aaron Grassian. Phần mềm chuyển từ HiFi 5 DSP sang nền tảng tối ưu hóa ngưỡng phụ của Ambiq Micro cho phép các nhà thiết kế sản phẩm, ODM và OEM tận dụng tối đa công nghệ từ các nhà lãnh đạo phần mềm âm thanh như DSP Conception và Sensory bằng cách thêm tích hợp, điều khiển và điều khiển bằng giọng nói UI giao tiếp với các sản phẩm di động, di động mà không làm giảm chất lượng hoặc tuổi thọ pin.

Hỗ trợ tài sản trí tuệ, có một thư viện các chức năng thư viện được tối ưu hóa thường được sử dụng trong xử lý mạng thần kinh - đặc biệt là xử lý giọng nói. Các chức năng này nhằm mục đích tích hợp trong các khung máy học phổ biến.

HiFi 5 cũng tương thích với thư viện công ty gồm các codec âm thanh và giọng nói hiện có và các gói phần mềm tăng cường âm thanh, được tối ưu hóa cho các phiên bản trước của dòng sản phẩm của công ty.

Chọn quốc gia hoặc khu vực của bạn.

News Information

IP mạng thần kinh nhằm vào SoC xử lý lời nói phức tạp

Sign up for our newsletter.