






Citation Verhelst, M., Bahai A. (2015), 
Where Analog Meets Digital: Analog-to-Information Conversion and 
Beyond 
IEEE Solid-State Circuits Magazine, Volume:7 Issue:3, pp:67 – 80. 
Archived version Author manuscript: the content is identical to the content of the published 
paper, but without the final typesetting by the publisher 
Published version http://dx.doi.org/10.1109/MSSC.2015.2442394  
Journal homepage http://sscs.ieee.org/ieee-solid-state-circuits-magazine.html 
Author contact your email marian.verhelst@kuleuven.be 
your phone number + 32 (0)16 328617 
IR Klik hier als u tekst wilt invoeren. 
 






















digital  signal processing preceded by a  standard analog  frontend and analog‐to‐digital converter. This 
trend has been exacerbated by the exponential rate of miniaturization in silicon, growing complexity of 
signal processing algorithms, and more  systematic digital design and  technology porting compared  to 
analog design in deep submicron technology nodes. The interface between analog and digital signals has 
as  such  generally  been  governed  by  sampling  at  or  above  the  Nyquist  sampling  rate  of  the  analog 
waveforms.  The dimensionality of a bandlimited signal f(t) with a physical bandwidth W over a period of 















(see  inset 1).  This a‐priori  information  can  take  various  forms,  such  as  the  shape, periodicity, or  the 






FIRST  INSET: Many  emerging  sensing  applications,  such  as  reactive  user  interfaces,  sensors  for  the 
internet‐of‐things (IoT), medical monitoring systems, or radar applications, evolve around sensing natural 















can  be  represented  with  fewer  samples  on  an  appropriate  basis  [5].  CS  exploits  the  fact  that  the 
information rate of a waveform that is sparse in a particular domain (such as e.g. in the time domain, in 
  
the  frequency  domain,  or  in  a wavelet  domain)  is  significantly  smaller  than  the Nyquist  rate  [6]. By 
correlating the signal with waveforms which are not coherent with the sparse basis, the analog bandwidth 
is narrowed down  to near  the  information  rate.  Such projections  can be  implemented  in  the  analog 









systems  [7,  8,  9,  10]. While  full  signal  reconstruction  comes  with  a  very  large  computational  load, 
interesting  emerging work  involves  the  direct  extraction  of  features  in  the  digital  domain  from  the 
compressed signal without prior full signal reconstruction. This has also successfully been applied to visual 
object  tracking  [11],  and  power  spectrum  determination  of  unoccupied  bands  in  efficient  spectrum 
sensors [7]. Yet, it is important to note that CS‐based sampling techniques strongly rely on signal sparsity 
to avoid information loss, and are as such not suitable for arbitrary signals. Moreover, impact of circuit 
impairments,  clock  jitter,  noise  folding  and  the  complexity  of  the  required  digital  signal  processing, 
diminishes benefits of compressed sensing for signals with large dynamic range and bandwidth [11]. 
B. Finite innovation rate sampling: 











post‐processing.  This  technique  is  currently being  applied  towards  its  first hardware  realizations  and 
promises  to  offer  significant  benefits  in  various  applications,  such  as  biomedical  imaging  or  radar 
applications. 
Aforementioned  analog‐to‐information  converters  have  recently  gained  increased  attention,  and 
demonstrated applicability in a wide range of application domains where perfect signal reconstruction or 
complete  information retrieval  in the digital domain  is desired. By exploiting a‐priori knowledge of the 
signal they reduce the  information rate below the Nyquist bandwidth without  loss of  information, yet 
often at the cost of a considerable increase in digital signal processing complexity [15]. Interesting work 
  




losing  any  information  present  in  the  analog waveform, hence  targeting  lossless  compression  at  the 






















heart  rate monitors, etc, where  the  information  rate of  the  signals considerably exceeds  the  relevant 
information rate. (See Figure 1 and 2nd inset.)   
  
An  emerging  class of ADCs, which we will denote by  feature  extracting ADC’s, does not  convert  the 
complete signal into the digital domain, nor relies on signal sparsity. Instead, they only target to sample 
the signal at its relevant Information rate, termed the feature rate. This is achieved through extracting a 
specific  set  of  features which  are  embedded  in  the  analog waveforms.  By  combining  analog  signal 
processing and data conversion,  the signal  is  first projected onto a specific  feature space, after which 
conversion at the feature rate takes place (See Figure 3.d). This allows the signal processing to exclusively 
focus on feature‐bearing  information, and discard  irrelevant  information as early  in the signal chain as 
possible.  The  signal’s  projection  or  transformation  (linear  or  nonlinear)  into  the  feature  domain  is 
achieved through a feature enhancing filter, boosting the relevant signal features, while suppressing other 
irrelevant information or distorting interferers. By discarding irrelevant information as early in the signal 
processing chain we  can  significantly  improve overall  system energy efficiency. This of course  implies 
moving the boundaries between analog and digital, requiring more  intelligent analog signal processing 






















Sub‐Nyquist  sampling  and  analog  analytics  has  implicitly  been  exploited  since  long  in  digital 
communication  systems. Also  in  such  systems,  the  ultimate  goal  is  the  integrity  of  data  (not  signal) 
transmission over communication channels plagued by noise and interference. Sub‐Nyquist sampling, in 
this  case,  can  be  tolerated  as  long  as  signal  distortion  does  not  corrupt  the  extracted  features 
(communicated  data  symbols).  Projection  into  the  feature  space  and  resulting  sampling  bandwidth 
reduction  is  achieved  in  the analog domain by boosting  relevant  signals while  suppressing noise and 






















sampling  rate  reduction  can be  achieved by  introducing  a  feature  sampling ADC.  For  example,  voice 
activity detection  can be  implemented by  extracting  features  in  the  analog domain  representing  the 
energy  profile  of  mel‐scaled  frequency  bands,  averaged  across  20msec  frames  [16].  Good  speech 





Clearly,  feature  extracting  ADCs  enable  drastic  sampling  rate  reduction,  beyond what  is  possible  in 
traditional lossless analog‐to‐information converters. It is important to note that the feature extracting 
ADCs exploiting analog analytics, are not suggested as a replacement  for classical converters.  In many 
applications where  reconstruction of a  signal  is  required,  such as multimedia applications, a  standard 











where  each block  (ADC, DSP,…)  is  independently  evolving,  this new  approach does  require  a  system 
optimization  to  realize  all  the  benefits  of  performance  and  power  efficiency,  and  hence  is  mostly 
application specific. Nevertheless, several system‐level techniques and architectural opportunities can be 







A  crucial  parameter  determining  the  accuracy  of  the  classifying  sensor  interface  under  noise  and 
distortion, as well as its power efficiency, is the choice of the feature enhancing filters. The optimal feature 
enhancing filter set maximally spreads information bearing data, while suppressing irrelevant distortion 





discover a good sub‐space representation of  the data  to be analyzed.  In contrast  to heuristic, manual 
feature  design, where  domain‐specific  expert  knowledge  is  exploited  to  handcraft  features,  feature 
learning targets the optimization of an objective function that captures the goodness of the features [17]. 
Techniques such as principal component analysis (PCA) [18] and deep learning [19], automatically reveal 
the  most  informative  portions  of  the  incoming  waveforms,  resulting  in  demonstrated  improved 
classification accuracies relative  to standard  features.   However, all these approaches do not take  the 













features  that  can be  computed. The optimal  feature enhancing  front‐end,  is programmable, and  can 
extract  a broad  variety of  complex  features,  rendering  the  front‐end  reusable  across diverse  sensing 
applications.  Yet,  this  is  still  an  open  challenge.  The  difficulty  of  introducing  programmability  and 




Starting  from  such  an  extensive  set  of  implementable  features,  machine  learning  techniques  for 
dimensionality reduction and feature selection using mutual information criteria [22] can be exploited to 
select the minimal subset of features achieving the targeted detection quality (Figure 7). A front‐end with 
the  derived  set  of  (configurable)  features  can  subsequently  be  implemented.  This  design  is,  at  the 
moment, application specific with limited versatility and reuseability. An Interesting future challenge for 
analog  analytics  is  the design of programmable  feature  extracting  front‐ends  capable of  extracting  a 
generic set of features, rendering them more widely reusable and configurable across many applications 
or various operating environments, as discussed in Section III.B. 














a  limited  feature set with acceptable performance across all operating circumstances. For  instance,  in 
order to achieve a good voice activity detection accuracy under various types of background noises (street 
noise, babble noise, subway noise, etc.), many of the analog features have to be observed in parallel [26], 
resulting  in a  large power consumption  footprint. Also  the study  in  [20],  related  to activity detection, 
points  out  varying  optimal  window  lengths  and  feature  types  across  operating  contexts.  A  static 
implementation  of  the  super‐set  of  all  relevant  features  extractors  on  the  chip which  are  sampled 
continuously, would significantly diminish the power consumption benefits of the feature extracting ADC. 
Yet,  the current  limited analog programmability also prevents  the  implementation of a  single  feature 
extraction filter, which can be completely reprogrammed on the fly. An interesting and proven alternative 











Example:  This principle  has been  implemented  in  a  voice  activity detector  in  [23].  The  voice  activity 
detector  can extract  the energy  content  in 16 different mel‐scaled  frequency bands between 50 and 
4000Hz, with  configurable  gain  and window  length.  Across  various  background  noises  (street  noise, 




versa).  The  resulting  run‐time  feature  (de)‐activation  saves  up  to  one  order  of magnitude  in  power 
consumption by only activating the most distinctive frequency bands, as illustrated in Figure 8. This front‐







enables more  than  just maintaining  detection  performance  across  various operating  contexts  at  low 
power  consumption. Due  to  the  analog‐centric  implementation,  the  configurability  can  be  exploited 
further  towards efficient  run‐time power – accuracy  scalability. As  studied extensively by Vittoz  [27], 
Sarpeshkar [28] and others [29], analog power consumption shows a much more pronounced dependency 





















A  feature  extraction ADC  can  exploit power‐vs‐accuracy  scalability  along  two  axis. On one hand,  the 
system can dynamically activate and deactivate features to increase the feature rate at the expense of 
additional power consumption, as discussed earlier. In parallel, it can modify the accuracy settings of every 


















Feature extraction  in analog analytics  involves additional analog signal processing prior  to digitization. 
Analog circuits are constrained by noise and accuracy requirements which do not necessarily benefit from 
voltage scaling and in most cases suffer from lower supply voltages [34]. The key parameters for a robust 
analog  design  are  in  broad  categories  of  design  parameters  such  as  transistor  geometries,  process 
manufacturing  parameters,  and  operational  parameters  such  as  temperature  [35].  In  a  typical  high 
performance analog design, traditionally a combination of meticulous layout and floor planning, careful 
circuit  topologies  such  as  fully differential  architectures  and  accurate device modelling  are  critical  to 
ensure robustness against device mismatch as well as operating condition and process variations. This 
becomes more  challenging  in  finer  geometry  process  nodes, which  increasingly  suffer  from  reduced 
matching quality for minimum feature size transistors and shrinking of voltage headroom. This problem 
worsenss when trying to introduce more flexibility of programmability into the analog analytics blocks, 































classes of  interest, as  illustrated  in Figure 11. Therefore, some distortion can be tolerated as  long as  it 
does not  impede  the  system’s  classification performance. This  can be exploited by driving  the digital 
enhancement  techniques  from  the  classifier’s  output.  In  Figure  12.a  a  typical  background  digital 
calibration of a feature sampling ADC is shown. The error term, unlike regular data converters, is derived 


































































































































































capability  of  the  classifier  learns  thresholds,  and  feature  values with  these  shifts  incorporated.  This 
assumes that adaptive learning runs continuously enough to track out variations. 
 
It  is  important to note that feature extracting systems do not require redundancy,  in contrast to many 
digitally assisted analog techniques, which typically utilize data (bandwidth) redundancies such as fault 




These alternative  impairment mitigation schemes, unique to the feature sampling ADCs,   result  in very 

















preprocessing  required  for mapping  the  signal  to  lower  bandwidth  feature  spaces  [36].  The 
matching  and modelling  errors  typical  in  subthreshold  circuits  are  absorbed  in  the  adaptive 
classifier. 
Die size: Another potential tradeoff in analog preprocessor is the die size. Variations in threshold 
voltage  VT  and  which  are  the main  sources  of mismatch  in MOSFET  devices  are  inversely 








changing  clock  frequency  and  parameter  adjustments,  this  is  less  evident  in  analog  designs. 
Typically analog circuit blocks require an involved redesign for e.g. tuning to different frequencies. 
However, architectures such as switched capacitor filters [38] have addressed programmability of 
analog  blocks  effectively.  The  large  threshold  frequency  (Ft)  of  advance  CMOS  process 
technologies  and  relatively  low  signal  bandwidth  of  many  event  driven  applications  can 
accommodate  novel  ultra‐low  power  and  programmable  signal  processing  circuit  design 




the  feature  extracting ADC  approach. Also  here,  impairments  such  as  charge  injection,  clock 
feedthrough, etc. can be absorbed by the classifier. 
These examples  illustrate a new world of opportunities opening up due  to  the  increased  impairment 




















Both  at  system  level,  as  well  as  at  circuit  level,  these  feature  extracting  ADCs  allow  new  design 
opportunities  towards  run‐time  energy  scalability  and power  savings.  Yet, new  challenges  also  arise.  





This  paper  hopes  to  stimulate  this  discussion, which will  require  an  interesting  interaction  between 
information theory and circuit design. 
 
 
Bibliography	
 
[1]   C. Shannon, "Communication in the Presence of Noise," Proc. Inst. Radio Eng., vol. 37, no. 2, pp. 
10‐21, 1949.  
[2]   D. H. a. D. J. Brady, "Compression at the Physical Interface," IEEE Signal Processing Mag., vol. 25, 
no. 2, pp. 67‐71, 2008.  
[3]   S. K. J. L. M. W. M. D. D. B. T. R. Y. M. a. R. Baraniuk, "Analog‐to‐information conversion via random 
demodulation," in IEEE Dallas/CAS Workshop on Design, Applications, Integration and Software, 
2006.  
  
[4]   E. J. Candes and M. B. Wakin, "An Introduction To Compressed Sampling," IEEE Signal Process. 
Mag., vol. 25, no. 2, pp. 21‐30, 2008.  
[5]   J. a. T. T. E.J. Candes, "Robust uncertainty principles: exact signal reconstruction from highly 
incomplete frequency information," IEEE Trans. Inf Theory, vol. 52, no. 2, pp. 489‐509, 2006.  
[6]   R. Baraniuk, "Compressive sensing," IEEE signal processing magazine, vol. 24, no. 4, 2007.  
[7]   M. F. M. A. D. D. T. J. N. L. T. S. K. E. K. a. R. G. B. Duarte, "Single‐pixel imaging via compressive 
sampling," IEEE Signal Processing Magazine, vol. 25, no. 2, 2008.  
[8]   F. A. P. C. a. V. S. Chen, "A signal‐agnostic compressed sensing acquisition system for wireless and 
implantable sensors," in IEEE Custom Integrated Circuits Conference (CICC), 2010.  
[9]   Y. a. A. E. G. Oike, "A 256× 256 CMOS image sensor with ΔΣ‐based single‐shot compressed 
sensing," in IEEE International Solid‐State Circuits Conference Digest of Technical Papers (ISSCC), 
2012.  
[10] A. M. E. G. A. D. G. a. D. J. A. Dixon, "Compressed sensing system considerations for ECG and EMG 
wireless biosensors," IEEE Transactions on Biomedical Circuits and Systems, vol. 6, no. 2, pp. 156‐
166, 2012.  
[11] O. F. L. F. C. a. V. S. Abari, "Why analog‐to‐information converters suffer in high‐bandwidth sparse 
signal applications," IEEE Transactions on Circuits and Systems I: Regular Papers, vol. 60, no. 9, pp. 
2273‐2284, 2013.  
[12] M. V. a. P. Mariliano, "Sampling signals with finite rate of innovation,," IEEE Trans. Signal Process. , 
vol. 59, no. 4, pp. 1417‐1428, 2002.  
[13] T. P.‐L. D. M. V. P. M. a. L. C. Blu, "Sparse sampling of signal innovations," IEEE Signal Processing 
Magazine, vol. 25, no. 2, pp. 31‐40, 2008.  
[14] M. M. Y. C. E. a. A. J. Elron, "Xampling: Signal acquisition and processing in union of subspaces," 
IEEE Transactions onSignal Processing, vol. 59, no. 10, pp. 4719‐4734, 2011.  
[15] F. Ren and D. Markovic, "A configurable 12‐to‐237KS/s 12.8mW sparse‐approximation engine for 
mobile ExG data aggregation," in IEEE International Solid‐ State Circuits Conference, 2015.  
[16] J. N. S. K. a. W. S. Sohn, "A statistical model‐based voice activity detection," IEEE Signal Processing 
Letters, vol. 6, no. 1, pp. 1‐3, 1999.  
[17] T. N. Y. H. a. P. O. Plötz, "Feature learning for activity recognition in ubiquitous computing," in In 
IJCAI Proceedings‐International Joint Conference on Artificial Intelligence, 2011.  
  
[18] I. Jolliffe, Principal component analysis, John Wiley & Sons, Ltd, 2002.  
[19] Y. Bengio, "Learning deep architectures for AI," Foundations and trends in Machine Learning 2, vol. 
1, 2009.  
[20] T. a. B. S. Huynh, "Analyzing features for activity recognition," in In Proceedings of the ACM 2005 
joint conference on Smart objects and ambient intelligence: innovative context‐aware services: 
usages and technologies, 2005.  
[21] J. Schürmann, Pattern classification: a unified view of statistical and neural approaches, New York: 
Wiley, 1996.  
[22] H. F. L. a. C. D. Peng, "Feature selection based on mutual information criteria of max‐dependency, 
max‐relevance, and min‐redundancy," IEEE Transactions on Pattern Analysis and Machine 
Intelligence, vol. 27, no. 8, pp. 1226‐1238, 2005.  
[23] K. S. L. W. M. a. M. V. Badami, "Context‐aware hierarchical information‐sensing in a 6μW 90nm 
CMOS voice activity detector," in In IEEE International Solid‐State Circuits Conference‐(ISSCC), 
2015.  
[24] A. C. T. W. B. M. D. J. W. T. a. V. D. Raychowdhury, "A 2.3 nJ/frame voice activity detector‐based 
audio front‐end for context‐aware system‐on‐chip applications in 32‐nm CMOS," IEEE Journal of 
Solid‐State Circuits, vol. 48, no. 8, pp. 1963‐1969, 2013.  
[25] H. T. T. M. Y. a. H. K. Noguchi, "An ultra‐low‐power VAD hardware implementation for intelligent 
ubiquitous sensor networks," in In IEEE Workshop on Signal Processing Systems, 2009.  
[26] S. K. B. W. M. a. M. V. Lauwereins, "Context‐and cost‐aware feature selection in ultra‐low‐power 
sensor interfaces," in In European Symposium on Artificial Neural Networks, Computational 
Intelligence and Machine Learning, 2014.  
[27] E. Vittoz, "Future of analog in the VLSI environment," in IEEE International Symposium on Circuits 
and System, 1990.  
[28] R. Sarpeshkar, "Analog versus digital: extrapolating from electronics to neurobiology," Neural 
computation, vol. 10, no. 7, pp. 1601‐1638, 1998.  
[29] B. Murmann, Limits on ADC power dissipation, Springer Netherlands, 2006.  
[30] L. a. J. A. S. Gu, "Radio‐triggered wake‐up for wireless sensor networks," Real‐Time Systems, vol. 
29, no. 2‐3, pp. 157‐182, 2005.  
  
[31] R. a. R. L. Jafari, "A low power wake‐up circuitry based on dynamic time warping for body sensor 
networks," in In IEEE International Conference on Body Sensor Networks (BSN), 2011.  
[32] R. H. N. S. G. a. M. S. Jafari, "Adaptive electrocardiogram feature extraction on distributed 
embedded systems.," IEEE Transactions on Parallel and Distributed Systems, vol. 17, no. 8, pp. 797‐
807, 2006.  
[33] B. Murmann, "Digitally assisted Analog Circuits," IEEE Micro, pp. 38‐46, 2006.  
[34] A. S.‐V. Pierlugi Nozzo, "Robustness in Analog Systems: Design Techniques, Methodologies, and 
Tools," Symposium on Industrial Embedded Syst, pp. 194‐203, 2011.  
[35] B. Murmann, "Digitally assisted Data Converter Design," Proceedings of ESSCIRC, pp. 24‐31, 2013.  
[36] E. Vittoz and J. Fellrath, "CMOS Analog Integrated Circuits Based on Weak Inversion Operations," 
Solid‐State Circuits, IEEE Journal of, vol. 12, no. 3, pp. 224‐231, 1977.  
[37] M. Pelgrom and A. C. J. Duinmaijer, "Matching pries of MOS transistorsopert," in ESSCIRC, 1988.  
[38] R. e. a. Perez‐Aloe, "Programmable time multiplexed switched capacitor variable equalizer for 
arbitrary frequency response realizations," Solid‐State Circuits, IEEE Journal of, vol. 32, no. 2, pp. 
274‐278, 1997.  
[39] M. M. a. Y. Eldar, "Sub‐Nyquist Sampling," IEEE Signal Process. Mag., vol. 28, no. 6, pp. 98‐124, 
2011.  
[40] D. H. a. D. J. Brady, "Compression at the Physical Interface," IEEE Signal Process. Mag., vol. 25, no. 
2, pp. 67‐71, 2008.  
[41] F. G. L. R. E. B. M. A. C. S. R. J. H. a. P. E. Pace, "A Nyquist folding analog‐to‐information receiver," 
in In IEEE 42nd Asilomar Conference on Signals, Systems and Computers, 2008.  
[42] Instruments, Texas, "http://www.ti.com/tool/adc12j4000evm#technicaldocuments," [Online].  
[43] R. Taft, C. A. Menkus, M. Tursi, O. Hidri and V. Pons, "A 1.8‐V 1.0‐GSPS 10b Self Calibrating Unified 
folding interpolating ADC With 9.1 ENOB at Nyquist Frequency," IEEE Journal of Solid State Circuits, 
vol. 44, no. 12, pp. 3294‐3304, 2009.  
[44] P. e. a. Amberg, "Digitally‐assisted analog circuits for a 10 Gbps, 395 fJ/b optical receiver in 40 nm 
CMOS," in IEEE Asian Solid‐state circuit conference, Jeju, Korea, 2011.  
 
 
